強化学習で意志決定行動を改善するためのアルゴリズムは3種類ある。
①方策ベース
経験に基づき、直接的に最適方策を学習することで、現在の方策を改善する。
代表的なアプローチは、方策勾配法。
状態を入力とし行動を出力するような方策関数を使用。
方策関数を直接改善する点が特徴。
有名なアルゴリズムにUNREALやREINFORCEなどがある。
②価値ベース
経験に基づき、間接的に方策を最適化するアプローチ。
最適価値関数を推定することに着目。
推定した価値から適切な方策に従って行動を取る。(=ε-gready法を指す)
代表的手法は価値反復法。
ある状態から「平均的に期待できる未来累積報酬」を計算しながらTD誤差を最小化するよう学習する。
有名なアルゴリズムに、Q学習やSARSAがある。
③方策ベースと価値ベースを組み合わせた手法
経験に基づき、価値と方策の両方を推定する。
有名なアルゴリズムにActor-Criticがある。
Actor-Criticの応用アルゴリズムがA3C。