強化学習において、単なるgreedy方策ではさらに良い方策がないのかを探索できないため、一定の確率ε(イプシロン)でランダムな行動をとるようにさせたもの。
バンディットアルゴリズムの具体的な手法にあたるのがε-greedy法である。