G検定カンペ用語集

自分用G検定用チートシート。

2023年07月


強化学習のアルゴリズムを「方策を直接的に評価するのか、間接的に評価するのか」という分類の他に、モデルベース型モデルフリー型という分け方もできる。
モデルとは「環境」「状態移遷確率」「価値関数」を表現するものである。

モデルベースのアルゴリズムは、状態移遷確率などのマルコフ決定過程に関するパラメータが既知であること、環境に関するパラメータを明示的に推定できることが条件。
パラメータを推定しモデル構築後に、価値関数や方策を改善。
モデルベースの代表は方策勾配法
Q学習と異なり、方策を行動価値関数ではなくパラメータを用いて明示的に表現する。

モデルフリーのアルゴリズムは、環境に関するパラメータを明示的に推定せずに、Q学習のように方策を求めるアプローチ。
環境のモデルを推定することは困難なことが多いので、現在実用化されている深層強化学習のアルゴリズムの大部分がモデルフリーである。


強化学習で意志決定行動を改善するためのアルゴリズムは3種類ある。

①方策ベース
経験に基づき、直接的に最適方策を学習することで、現在の方策を改善する。
代表的なアプローチは、方策勾配法
状態を入力とし行動を出力するような方策関数を使用。
方策関数を直接改善する点が特徴。
有名なアルゴリズムにUNREALREINFORCEなどがある。

②価値ベース
経験に基づき、間接的に方策を最適化するアプローチ。
最適価値関数を推定することに着目。
推定した価値から適切な方策に従って行動を取る。(=ε-gready法を指す)
代表的手法は価値反復法
ある状態から「平均的に期待できる未来累積報酬」を計算しながらTD誤差を最小化するよう学習する。
有名なアルゴリズムに、Q学習SARSAがある。

③方策ベースと価値ベースを組み合わせた手法
経験に基づき、価値と方策の両方を推定する。
有名なアルゴリズムにActor-Criticがある。
Actor-Criticの応用アルゴリズムがA3C



深層強化学習はAtariのゲーム以外に囲碁でも成果を残している。

●2015年 世界トップ棋士(イ・セドル)を負かしたAlphaGo(アルファ碁)
打つ手の探索にモンテカルロ木探索法を使用し、碁盤の認識にCNNを使用する。(DeepMind社)
勝率は、盤面情報を符号化したデータを入力として計算する。 
人間がプレイした棋譜データを学習データに使用し、教師あり学習を行う。

●2017年10月 AlphaGoの強化版「AlphaGoZero」(DeepMind社)
完全自己対局(Self-play)で学習する。
過去の棋譜で学習するのではなく、自分自身と戦うことで得られたデータのみを使って学習する。
自己対局が可能になったことで、伝統的な知識の蓄積やそのバイアスに依存することなく、完全にゼロベースから学習を進めたほうがいい場合もあるということが明らかになった。

●2017年 Alpha Zero(アルファ・ゼロ)。
AlphaGoの発展版で、自己対戦のみで学習できる。
囲碁に限らず、将棋、チェスなども勝てる性能を持つ。

●2019年 Alpha Star(アルファ・スター)
ResNet、LSTM、トランスフォーマーなど、画像処理や自然言語処理のために開発された手法を組み合わせて学習する。



DQNを拡張させた手法もいろいろある。
有名なのはダブルDQN(DDQN)やデュエリングネットワーク、ノイジーネットワークなど。

さらにこれらのアルゴリズムの良い特徴を組み合わせた「全部のせ」モデルがRAINBOW。
Atariのゲームを使ったテストでは他のすべての手法に勝るパフォーマンスを示す。




強化学習は1990年代に栄えるが、以下の理由で2000年代に衰退した。
・「状態」の表現が難しい。
・「状態」に対して、現実的な時間内で行動を判断することが難しい。
この問題を解決したのが、深層強化学習である。

深層強化学習の圧倒的メジャー手法はDQN(Deep Q Net-work)。
基本的な思想はQ学習と同じで、そこにCNNを取り入れている。
状態と行動と報酬をまとめた「Qテーブル」に対し、ディープラーニングで回帰を施し、これを近似することで、状態が膨大になっても学習を実用的な時間内で終了させることができる。

当初はエージェントから得られるサンプルが時系列的に強い相関を持つことが問題になったが、Experience Replay(経験再生)という工夫で向上した。
サンプルのバッファーから一度に複数のサンプルを取り出してミニバッチ学習を行う仕組みによって、サンプル間の相関を軽減することができた。

DQNの有名事例は、2013年のAtari社のゲームである。
2015~2017年にDeepMind社の「AlphaGo(アルファ碁)」、2017年10月には完全自己対局で学習する強化版「AlphaGoZero」も開発された。

またDQNにはターゲットネットワークという学習テクニックも利用されている。
現在学習中のネットワークと、過去に遡ったネットワークの「TD誤差」を教師データのように使う仕組み。
価値の推定を安定させる。



↑このページのトップヘ