2022年10月25日 ノイジーネットワーク(noisy network) DQNでは、常にその時点で価値の高い行動をとり続けた場合、別の行動をとる可能性がなくなってしまう。この問題点をネットワークそのものに学習可能なパラメータと共に外乱を与え、それも含めて学習させていくことでより長期的で広範囲に探索を進めることで、改善するという方法。 「G検定カンペ用語集」カテゴリの最新記事 タグ :#G検定#カンペ < 前の記事次の記事 >