直接的に最適な方策を見つけだすアプローチ。
方策をあるパラメータで表現可能な関数とし、累積報酬の期待値が最大となるように関数のパラメータを学習し直接的に最適化する。
ロボット制御など行動の選択肢が多いケースで使われる。
(各行動の価値を1つひとつ計算するのは計算量が膨大になってしまうため。)