DQNでは、常にその時点で価値の高い行動をとり続けた場合、別の行動をとる可能性がなくなってしまう。
この問題点をネットワークそのものに学習可能なパラメータと共に外乱を与え、それも含めて学習させていくことでより長期的で広範囲に探索を進めることで、改善するという方法。