2023年05月23日 Actor-Critic 行動を決めるActor(行動器)を直接改善しながら、方策を評価するCritic(評価器)を同時に学習させるアプローチ。方策ベースと価値ベースを組み合わせた手法。報酬の揺らぎから影響を受けにくくなり、学習を安定化、および、高速化できる。 「G検定カンペ用語集」カテゴリの最新記事 タグ :#G検定#カンペ < 前の記事次の記事 >