2023年07月14日 Q学習 現在のQ値と実際に得られたQ値の差分(TD:Temporal Difference誤差)を使って、現在のQ値を更新する。実際にとる行動(方策)と価値関数の更新に用いる行動(方策)が異なるため、「方策オフ」のTD学習法と呼ばれる。 「G検定カンペ用語集」カテゴリの最新記事 タグ :#G検定#カンペ < 前の記事次の記事 >