強化学習において、ある状態から次の状態に背にする際に設定されている行動に対する関数のこと。
ランダムな行動をとった時の価値を計算する。

強化学習は、最終的に獲得する累計報酬を最大化することを目的としている。
エージェントは、累計の行動関数が最大になるよう行動することで、最短ルートを歩むことが可能になる。