2023年11月06日 行動価値関数 強化学習において、ある状態から次の状態に背にする際に設定されている行動に対する関数のこと。ランダムな行動をとった時の価値を計算する。強化学習は、最終的に獲得する累計報酬を最大化することを目的としている。エージェントは、累計の行動関数が最大になるよう行動することで、最短ルートを歩むことが可能になる。 「G検定カンペ用語集」カテゴリの最新記事 タグ :#G検定#カンペ < 前の記事次の記事 >