強化学習において、ある特定の状態と行動のセット(s, a)に対して価値(関数)を推定した後に、そこから最適な方策を決定する。
その状態において最も価値が高い行動を、その時点での最適行動として選択する方策。
つまり、最適行動価値関数(報酬)が最大化される方策しか選ばない。