強化学習において、一連の試行錯誤の後に報酬が高かった行動を積極的に選択しようとすること。