2022年10月14日 SAC(Soft Actor-Critic) 連続値制御の深層強化学習モデル。方策関数(Actor)とSoft関数を、ニューラルネットワークで実装する。ロボットアームや自動運転のハンドル制御などに利用される。ソフトベルマン方程式を用いる。目的関数にエントロピー最大項を加えることで、探索が行える。(普通のActor-Criticの目的関数(期待収益の最大化)に、方策のエントロピー最大化項を加えたもの) 「G検定カンペ用語集」カテゴリの最新記事 タグ :#G検定#カンペ < 前の記事次の記事 >