DeepMindの新たな特技に「Quake III Arena」が追加。待ち伏せや協力プレイも習得済み
すでに人間より強く協力的だとのことです。
トレーニングは「キャプチャー・ザ・フラグ」(CTF)でのフラグの獲得が中心です。フラグは、対戦ごとに変わるマップの中にひとつ置かれています。AIエージェントは、人間なら簡単にできる、新しいマップへの適応のための基本戦略を学ばなければなりません。またエージェントは、敵チームと戦いながら自チームのメンバーと協力したり、異なる敵のプレイスタイルへの対処も同時に行わなければなりません。 「我々のエージェントは、見たことのない環境で、どのように見て、行動して、協力して、競争するかを、最初から学ばなければなりません。すべてを、対戦ごとのひとつの強化信号、つまりチームが勝ったか負けたか、から学ぶのです」と研究者はブログ記事に書いています。
彼らは、私たちと同じようにゲームをプレイすることで学習するAI装備エージェントを多数トレーニングしています。個々のエージェントは、内部的な報償信号を動機として行動することで、フラグを獲得するなどのゴールを目指す意欲が増すのです。
エージェントは、エージェント同士、または人間相手に、高速な対戦、低速な対戦を重ねることで、記憶力と行動の一貫性を向上させています。研究者は、AIエージェントのほうが人間よりも勝率が高いことを発見しましたが、それも頷けます。しかも、AIエージェントのほうが人間よりも協力的だというのです。また、チームメイトを追跡したり、敵の基地でキャンプ(待ち伏せ)をするといった人間的な行動も見られるそうです。
このまま行けば、こうしたAIは、StarCraft IIやDota 2といったより複雑なゲームで、味方の連合も敵もどちらも操れるようになり、他の人間のプレイヤーと変わらないプレイを見せることになると、研究者たちは話しています。eSportsのチームがAIを使って勝率を上げる未来を想像するのは、難しいことではありません。
編集部が日本向けに翻訳・編集したものです。
原文著者:Rob LeFebvre
広告掲載についてのお問い合わせはad-sales@oath.com までお知らせください。各種データなどはこちらのメディアガイドをあわせてご覧ください。