2024年06月18日 完全自己対局(self-play) 深層強化学習を利用した囲碁AIにおいて、過去の棋譜を学習せずに自分自身と戦うことで得られたデータだけを使用して学習すること。はじめはランダムな動きしかできないが、場数を踏むうちに勝つ行動パターンを学習して賢くなっていく。有名なのは、2017年 AlphaGo Zero。 タグ :#G検定#カンペ
2024年06月17日 Experience Replay(経験再生) 深層強化学習の有名な手法であるDQNがうまくいくようにさせた工夫。遷移を一時的にリプレイバッファーと呼ばれる領域に保存しておき、サンプルのバッファーから一度に複数のサンプルを取り出してミニバッチ学習を行う仕組み。サンプル間の相関を軽減することができる。(サンプル効率が向上する。) タグ :#G検定#カンペ