強化学習のネットワーク構造を改良したモデル。
行動価値を状態価値関数(状態)とAdvantage(行動)に分割することにより、行動に関わらず状態を学習することができるようにしたもの。
Ziyu WangらDeepMind のメンバーによって2015年に発表された。