行動を決めるActor(行動器)を直接改善しながら、方策を評価するCritic(評価器)を同時に学習させるアプローチ。
方策ベースと価値ベースを組み合わせた手法。
報酬の揺らぎから影響を受けにくくなり、学習を安定化、および、高速化できる。