G検定カンペ用語集

自分用G検定用チートシート。

2023年05月


行動を決めるActor(行動器)を直接改善しながら、方策を評価するCritic(評価器)を同時に学習させるアプローチ。
方策ベースと価値ベースを組み合わせた手法。
報酬の揺らぎから影響を受けにくくなり、学習を安定化、および、高速化できる。


直接的に最適な方策を見つけだすアプローチ。
方策をあるパラメータで表現可能な関数とし、累積報酬の期待値が最大となるように関数のパラメータを学習し直接的に最適化する。
ロボット制御など行動の選択肢が多いケースで使われる。
(各行動の価値を1つひとつ計算するのは計算量が膨大になってしまうため。)


価値ベースのアルゴリズム。
モデルのパラメータが既知の場合に、Bellman最適方程式を解いて最適な方策を得るアプローチ。


探索をベースとした考え方で、行動するたびにQ値を更新するのではなく、報酬を得られたタイミングでそれまで行った行動のQ値を一気に更新する。
動的計画法やモンテカルロ法は、現実の複雑な問題にやや対応しきれないため、実務上では基本的にTD学習を採用する。


将来もらえる報酬をどれくらい現在の価値として考慮するかを表わすハイパーパラメータ。
割引率は0と1の間の値を取り、常に一定である。
割引r=0なら、直後の報酬のみ考慮することに相当する。
r=1なら、将来もらえる報酬を減点せずすべてそのまま現在の価値の評価に反映させることに相当する。


↑このページのトップヘ