過去に蓄積されたデータのみで、オフラインで強化学習を行う手法。
医療・ロボティクスなどの分野での活躍を期待されている。