2023年05月18日 モンテカルロ法 探索をベースとした考え方で、行動するたびにQ値を更新するのではなく、報酬を得られたタイミングでそれまで行った行動のQ値を一気に更新する。動的計画法やモンテカルロ法は、現実の複雑な問題にやや対応しきれないため、実務上では基本的にTD学習を採用する。 「G検定カンペ用語集」カテゴリの最新記事 タグ :#G検定#カンペ < 前の記事次の記事 >