2本足しか無いモデルは画面上をひたすら右に向かって走ります。途中には段差やハードル、さらに底なしの谷などがレイアウトされており、それらをうまく避け、乗り越え、くぐり抜けられればそれに応じた報酬が得られる用に設定されています。
動画はすでにかなり強化学習が進んだ状態のもので、まるでゲームを人間が操作しているようにもみえるほど。中には高い塀のような傷害を乗り越えるために、まず膝をかけてからよじ登るといった動作も見られるものの、これらすべてがこの棒人間(AI)の独学による行動です。
DeepMindはこの実験で、強化学習が複雑な動きを覚えさせるためにも有効利用できることを示しました。おそらく、このように強化学習されたAIは将来、家の中にある階段や段差を自由に乗り越える必要がある家事ロボットなどに搭載されるのではとも考えられます。
Agents having fun in Parkour! Cool paper from colleagues at DeepMind https://t.co/X0PwKXrQ2Mpic.twitter.com/yMT6XCNv45
— Oriol Vinyals (@OriolVinyalsML) 2017年7月10日
DeepMindはこの研究を「Emergence of Locomotion Behaviours in Rich Environments」と題した論文にまとめArxiv.orgに発表しました。
腕の振りも独学なのか...?