2024年06月07日 greedy方策 強化学習において、ある特定の状態と行動のセット(s, a)に対して価値(関数)を推定した後に、そこから最適な方策を決定する。その状態において最も価値が高い行動を、その時点での最適行動として選択する方策。つまり、最適行動価値関数(報酬)が最大化される方策しか選ばない。 「G検定カンペ用語集」カテゴリの最新記事 タグ :#G検定#カンペ < 前の記事次の記事 >