深層強化学習の有名な手法であるDQNがうまくいくようにさせた工夫。
遷移を一時的にリプレイバッファーと呼ばれる領域に保存しておき、サンプルのバッファーから一度に複数のサンプルを取り出してミニバッチ学習を行う仕組み。
サンプル間の相関を軽減することができる。(サンプル効率が向上する。)