2023年05月22日 方策勾配法(Policy Gradient Method) 直接的に最適な方策を見つけだすアプローチ。方策をあるパラメータで表現可能な関数とし、累積報酬の期待値が最大となるように関数のパラメータを学習し直接的に最適化する。ロボット制御など行動の選択肢が多いケースで使われる。(各行動の価値を1つひとつ計算するのは計算量が膨大になってしまうため。) 「G検定カンペ用語集」カテゴリの最新記事 タグ :#G検定#カンペ < 前の記事次の記事 >