Q学習と違ってmax関数を使わず、更新式では実際に採用した行動a'を使っているので、「方策オン」のTD学習と呼ぶ。
Q学習より収束が遅い一方、局所解に陥りにくい。