現在のQ値と実際に得られたQ値の差分(TD:Temporal Difference誤差)を使って、現在のQ値を更新する。
実際にとる行動(方策)と価値関数の更新に用いる行動(方策)が異なるため、「方策オフ」のTD学習法と呼ばれる。