連続値制御の深層強化学習モデル。
方策関数(Actor)とSoft関数を、ニューラルネットワークで実装する。
ロボットアームや自動運転のハンドル制御などに利用される。
ソフトベルマン方程式を用いる。
目的関数にエントロピー最大項を加えることで、探索が行える。
(普通のActor-Criticの目的関数(期待収益の最大化)に、方策のエントロピー最大化項を加えたもの)