深層強化学習において、環境の状態をあらかじめ学習しておくことで、学習効率を高める手法。