深層強化学習はAtariのゲーム以外に囲碁でも成果を残している。
●2015年 世界トップ棋士(イ・セドル)を負かしたAlphaGo(アルファ碁)。
打つ手の探索にモンテカルロ木探索法を使用し、碁盤の認識にCNNを使用する。(DeepMind社)
勝率は、盤面情報を符号化したデータを入力として計算する。
人間がプレイした棋譜データを学習データに使用し、教師あり学習を行う。
●2017年10月 AlphaGoの強化版「AlphaGoZero」(DeepMind社)。
完全自己対局(Self-play)で学習する。
過去の棋譜で学習するのではなく、自分自身と戦うことで得られたデータのみを使って学習する。
自己対局が可能になったことで、伝統的な知識の蓄積やそのバイアスに依存することなく、完全にゼロベースから学習を進めたほうがいい場合もあるということが明らかになった。
●2017年 Alpha Zero(アルファ・ゼロ)。
AlphaGoの発展版で、自己対戦のみで学習できる。
囲碁に限らず、将棋、チェスなども勝てる性能を持つ。
●2019年 Alpha Star(アルファ・スター)。
ResNet、LSTM、トランスフォーマーなど、画像処理や自然言語処理のために開発された手法を組み合わせて学習する。