DQNはたまたまQ値が高いところを学習してしまう場合があり、それを防ぐ手段。
DQNを二重化したもの。
2つのQ Networkを使うことで過大評価を軽減させる。