2023年05月23日 Actor-Critic 行動を決めるActor(行動器)を直接改善しながら、方策を評価するCritic(評価器)を同時に学習させるアプローチ。方策ベースと価値ベースを組み合わせた手法。報酬の揺らぎから影響を受けにくくなり、学習を安定化、および、高速化できる。 タグ :#G検定#カンペ
2023年05月22日 方策勾配法(Policy Gradient Method) 直接的に最適な方策を見つけだすアプローチ。方策をあるパラメータで表現可能な関数とし、累積報酬の期待値が最大となるように関数のパラメータを学習し直接的に最適化する。ロボット制御など行動の選択肢が多いケースで使われる。(各行動の価値を1つひとつ計算するのは計算量が膨大になってしまうため。) タグ :#G検定#カンペ
2023年05月18日 モンテカルロ法 探索をベースとした考え方で、行動するたびにQ値を更新するのではなく、報酬を得られたタイミングでそれまで行った行動のQ値を一気に更新する。動的計画法やモンテカルロ法は、現実の複雑な問題にやや対応しきれないため、実務上では基本的にTD学習を採用する。 タグ :#G検定#カンペ
2023年05月17日 割引率(Discount Rate) 将来もらえる報酬をどれくらい現在の価値として考慮するかを表わすハイパーパラメータ。割引率は0と1の間の値を取り、常に一定である。割引r=0なら、直後の報酬のみ考慮することに相当する。r=1なら、将来もらえる報酬を減点せずすべてそのまま現在の価値の評価に反映させることに相当する。 タグ :#G検定#カンペ