G検定カンペ用語集

自分用G検定用チートシート。

2023年05月


自然言語処理のトピックモデル(クラスタリングを用いて文章中の話題を見つける手法)のひとつ。
単語の出現数に注目し、BOWを解析することで文章を統計的に分類する。
特異値分解を用いて、同じ意味をもつ単語をグルーピング。
1文章に1トピックのみ割り当てる。


文章ベクトルにおいて、複数の文章に共通に現れる単語を解析することによって、低次元の潜在意味空間を構成する方法。
特異値分解が用いられる。


強化学習において、DQNを拡張させた「ダブルDQN(DDQN)」や「デュエリングネットワーク」「ノイジーネットワーク」などの有名なアルゴリズムの良い特徴を組み合わせた全部載せモデル。
Atariのゲームを使ったテストでは、他のすべての手法に勝るパフォーマンスを示した。


ヒトや動物は、幅広い行動を少ない学習回数で習得し、それらを臨機応変的に実行することができる。
私たちが行動を学習するためには「できる人の模倣」からはじめ、成功と失敗を繰り返しながら少しずつ上手に行動できるようになる。

強化学習をロボティクスに応用する上でも同様に、模倣と試行錯誤が重要となる。
ロボットの運動訓練を行うためには、様々なモーション(速歩、転回、スキップ、サイドステップなど)を実行している動物の動画を収集し、動画の各時刻でのポーズを追跡しながら、その動きを再現する制御ポリシーを用いて深層強化学習を行う。

ポリシー設計には、ロボットの質量や摩擦など物理量のシミュレーションが反映されている。


強化学習アルゴリズムの具体例。
Asynchronous Advantage Actor-Critic。
2016年にDeepMind社のヴォロジーミル・ムニのチームに提案された。

複数のエージェントが同じ環境で非同期に学習する。
「Asynchronous(非同期)」とは、複数のエージェントによる非同期な並列学習を行うこと。
「Advantage」とは、複数ステップ先を考慮して更新することを指す。
「Actor」は方策によって行動を選択し、
「Critic」は状態価値関数に応じて方策を修正する役割である。

●A3Cの非同期学習の詳細
各エージェントが並列に自律的にRolloutを実行し、勾配計算する。
その勾配情報で好き勝手なタイミングで共有ネットワークを更新。
各エージェントはそれぞれ定期的に自分のネットワークの重みを共有ネットワークの重みと同期する。

並列分散エージェントで学習するメリットは、以下の通り。

①学習が高速化できること
ネットワーク全体と重みを共有しつつ、並列分散的に学習しているため。

②学習を安定化できること
経験の自己相関による学習の不安定性は長年の課題だった。
DQNでは経験再生で学習の安定化を実現したが、経験再生はDQNのような「方策オフ手法」でしか使えない。
A3Cは「方策オン手法」なので、経験の自己相関を低減するために、エージェントを並列化する工夫を取っている。



↑このページのトップヘ