強化学習において、一連の試行錯誤の後に報酬が高かった行動を積極的に選択しようとすることを「活用(Exploitation)という。
逆に、より高い報酬をもたらす別の行動がないかを探すことを「探索(Exploration)」という。
「活用」と「探索」はトレードオフ。バランスが大事。
この課題解決に用いられるのが、バンディットアルゴリズムである。
ある特定の状態と行動のセット(S,a)に対して価値(関数)を推定した後に、そこから最適な方策を決定する。
その状態における最も価値の高い行動を(その時点での)最適行動とする。
常にそのような最適行動を選択し方策を決定することを、gready方策という。
しかし、gready方策ではさらにいい方策があるかを探索できないので、探索を可能にする要素を取り入れるため、一定の確率ε(イプシロン)でランダムな行動をするε-gready法がある。
(バンディットアルゴリズムの具体的な手法がε-gready法。)