探索をベースとした考え方で、行動するたびにQ値を更新するのではなく、報酬を得られたタイミングでそれまで行った行動のQ値を一気に更新する。
動的計画法やモンテカルロ法は、現実の複雑な問題にやや対応しきれないため、実務上では基本的にTD学習を採用する。