2023年03月30日 SARSA Q学習と違ってmax関数を使わず、更新式では実際に採用した行動a'を使っているので、「方策オン」のTD学習と呼ぶ。Q学習より収束が遅い一方、局所解に陥りにくい。 「G検定カンペ用語集」カテゴリの最新記事 タグ :#G検定#カンペ < 前の記事次の記事 >