強化学習は1990年代に栄えるが、以下の理由で2000年代に衰退した。
・「状態」の表現が難しい。
・「状態」に対して、現実的な時間内で行動を判断することが難しい。
この問題を解決したのが、深層強化学習である。
深層強化学習の圧倒的メジャー手法はDQN(Deep Q Net-work)。
基本的な思想はQ学習と同じで、そこにCNNを取り入れている。
状態と行動と報酬をまとめた「Qテーブル」に対し、ディープラーニングで回帰を施し、これを近似することで、状態が膨大になっても学習を実用的な時間内で終了させることができる。
当初はエージェントから得られるサンプルが時系列的に強い相関を持つことが問題になったが、Experience Replay(経験再生)という工夫で向上した。
サンプルのバッファーから一度に複数のサンプルを取り出してミニバッチ学習を行う仕組みによって、サンプル間の相関を軽減することができた。
DQNの有名事例は、2013年のAtari社のゲームである。
2015~2017年にDeepMind社の「AlphaGo(アルファ碁)」、2017年10月には完全自己対局で学習する強化版「AlphaGoZero」も開発された。
またDQNにはターゲットネットワークという学習テクニックも利用されている。
現在学習中のネットワークと、過去に遡ったネットワークの「TD誤差」を教師データのように使う仕組み。
価値の推定を安定させる。