強化学習において、ある状態で行動を選択した場合に、確率的に別の状態に推移するアルゴリズム。
「未来の状態は過去に依存しない。現在の状態と繊維確立に依存する」というマルコフ過程モデルのアルゴリズムに、行動の概念を加えたものである。