現在のQ値を更新するために、実際エージェントを行動させて、そこから得られた結果を使ってQ値(期待値の見積もり)を置き換え、方策を改善していくアプローチ。
Q値を効率的に更新させてくれるアルゴリズム。
TD学習には、
Q学習とSARSAの2つの学習法がある。
どちらも、「今、選択する行動によって、価値の高い状態に遷移できるか」を評価するために、実際にエージェントを行動させて得られた次の状態における結果を伝播させ、これを参考に少しずつQ値を更新し、行動を最適化する。
Q学習とSARSAの違いは、価値関数を更新する計算式のみである。