強化学習アルゴリズムの具体例。
Asynchronous Advantage Actor-Critic。
2016年にDeepMind社のヴォロジーミル・ムニのチームに提案された。
複数のエージェントが同じ環境で非同期に学習する。
「Asynchronous(非同期)」とは、複数のエージェントによる非同期な並列学習を行うこと。
「Advantage」とは、複数ステップ先を考慮して更新することを指す。
「Actor」は方策によって行動を選択し、
「Critic」は状態価値関数に応じて方策を修正する役割である。
●A3Cの非同期学習の詳細
各エージェントが並列に自律的にRolloutを実行し、勾配計算する。
その勾配情報で好き勝手なタイミングで共有ネットワークを更新。
各エージェントはそれぞれ定期的に自分のネットワークの重みを共有ネットワークの重みと同期する。
並列分散エージェントで学習するメリットは、以下の通り。
①学習が高速化できること
ネットワーク全体と重みを共有しつつ、並列分散的に学習しているため。
②学習を安定化できること
経験の自己相関による学習の不安定性は長年の課題だった。
DQNでは経験再生で学習の安定化を実現したが、経験再生はDQNのような「方策オフ手法」でしか使えない。
A3Cは「方策オン手法」なので、経験の自己相関を低減するために、エージェントを並列化する工夫を取っている。