ヒトや動物は、幅広い行動を少ない学習回数で習得し、それらを臨機応変的に実行することができる。
私たちが行動を学習するためには「できる人の模倣」からはじめ、成功と失敗を繰り返しながら少しずつ上手に行動できるようになる。

強化学習をロボティクスに応用する上でも同様に、模倣と試行錯誤が重要となる。
ロボットの運動訓練を行うためには、様々なモーション(速歩、転回、スキップ、サイドステップなど)を実行している動物の動画を収集し、動画の各時刻でのポーズを追跡しながら、その動きを再現する制御ポリシーを用いて深層強化学習を行う。

ポリシー設計には、ロボットの質量や摩擦など物理量のシミュレーションが反映されている。