強化学習において、ある状態のとき、どの行動をとるべきかを示す関数。
決定的に行動を決めるものと、確率的に決めるものがある。