=Deep Q-Netword
深層強化学習の最も有名な手法。
従来の強化学習モデルにおける価値関数をディープにしたもの。
基本的な思想はQ学習と同じだが、さらにCNNをとり入れている。
状態と行動と報酬をまとめた「Qテーブル」に対し、ディープラーニングで回帰を施してこれを近似することで、状態数が膨大になっても学習を実用的な時間内で終了することができる。

DQNではExperience Replay(経験再生)という工夫が行われている。

DQNの有名な事例
①2013年Atari社のブロック崩しゲームで人間のスコアを超えたこと。
②2015~2017年にDeepMind社が開発したAlphaGo(アルファ碁)が世界トップの棋士を倒した。
③2017年10月 完全自己対局で学習する強化版AlphaGo Zeroが開発された。
現在ではゲーム以外にも、自動運転、ロボティクスにも活用されている。