機械学習の一分野。
特定の状況下で最大限の報酬をもらうためにどのような行動をとるべきかを学習する。
強化学習は、エージェントが環境と「状態」「行動」「報酬」に基づいて意思決定ルールを見出す。
<エージェント>
強化学習における主体。
現在置かれている状況を「状態」として認知し、取るべき「行動」を判断して実行する。
<環境>
エージェントの各行動に対し、事前に定められた確率に基づいて、次の状態と「報酬」を発生させる。
エージェントは環境が与えた「状態」を認知し、意思決定ルールに基づく判断に基づいて行動を実行する。
エージェントは、実行された行動に応じた報酬を環境から受け取り、「状態」「行動」「報酬」に基づいて意思決定ルールを強化する。
この流れが繰り返されることにより、最終的に最大の報酬をもらえるような行動ルールを学習する。
たとえば、ロボットの歩行制御では、ロボットに対して「歩けた距離」を報酬として与える。
ロボットは歩行距離を最大化するために、自らさまざまな歩き方を試行錯誤する。
その結果、歩行可能距離の長いアルゴリズムが構築される。
教師あり学習・教師なし学習で必要とされる、学習前のデータ収集・前処理・ラベル付けは不要。
事実上、適切なインセンティブがあれば、人間の監視がなくても行動の学習が可能である。
強化学習は、囲碁やチェスなどのボードゲームやビデオゲームにおいて活用され、人間プレイヤーに勝利をおさめている。
また自動運転やロボティクスなどにも活用されている。