強化学習のアルゴリズムを「方策を直接的に評価するのか、間接的に評価するのか」という分類の他に、モデルベース型モデルフリー型という分け方もできる。
モデルとは「環境」「状態移遷確率」「価値関数」を表現するものである。

モデルベースのアルゴリズムは、状態移遷確率などのマルコフ決定過程に関するパラメータが既知であること、環境に関するパラメータを明示的に推定できることが条件。
パラメータを推定しモデル構築後に、価値関数や方策を改善。
モデルベースの代表は方策勾配法
Q学習と異なり、方策を行動価値関数ではなくパラメータを用いて明示的に表現する。

モデルフリーのアルゴリズムは、環境に関するパラメータを明示的に推定せずに、Q学習のように方策を求めるアプローチ。
環境のモデルを推定することは困難なことが多いので、現在実用化されている深層強化学習のアルゴリズムの大部分がモデルフリーである。