価値ベースのアルゴリズム。
モデルのパラメータが既知の場合に、Bellman最適方程式を解いて最適な方策を得るアプローチ。