強化学習においては、累積報酬を最大化するのに最適な行動を選択するために、最善な方策(policy)を見つけたいけれど、難しい場合もある。
方策(policy)とは「ある状態から取りうる行動の選択肢、および、その選択肢を決定するための作戦」である。
最適な方策を求める代わりに、状態や行動の「価値」を定義し、その価値が最大となるように学習するアプローチが考えられている。
具体的には、ある状態と行動から得られる将来の累積報酬の期待値を、その状態と行動の価値とする。
その価値が最大となるような行動などを求め、適切な行動を実行する。
この価値を評価するために価値関数(Value Function)を用いる。

価値関数には①状態価値関数 ②行動価値関数 の2種類がある。
②行動価値関数の方が重要。
行動価値関数はQ値と呼ばれ、「価値関数」というとQ値を指すことが多い。
行動価値関数とは、特定の状態S、行動aが与えられたときに、将来もらえると期待できる割引された報酬の和を表わす関数。