深層強化学習を利用した囲碁AIにおいて、過去の棋譜を学習せずに自分自身と戦うことで得られたデータだけを使用して学習すること。
はじめはランダムな動きしかできないが、場数を踏むうちに勝つ行動パターンを学習して賢くなっていく。
有名なのは、2017年 AlphaGo Zero