強化学習の手法。
経験を蓄積するために行動する「探索」と、経験を活かして行動する「予測」を最適化する。