GTAV
Harrison Kinsley / Daniel Kukiela

全世界で1億4000万本ものヒットを記録した『GTAV』(Grand Theft Auto V)はAI研究者の興味をひきやすいためか、先日も景観をフォトリアルに変換する機械学習プロジェクトの成果の1つとして紹介されていました。3Dモデルやテクスチャの質感、場の空気感などが高められた映像は、こちらで確認できます

それとほぼ同時期に、別のAI愛好家らが『GTAV』を素材にした研究に取り組んでいたと発表しました。YouTuberのHarrison Kinsley氏は、AIが見よう見まねで、ゲームエンジンもなくプログラムコードも書かずにゲームプレイを独力で再現したと紹介する動画を公開しています。

Kinsley氏と共同研究者のDaniel Kukieła氏は、昨年、AIが人間のプレイを見ただけで『パックマン』を再現したGameGANによりGAN版『GTAV』を作ったとのことです。

GANとは「敵対的生成ネットワーク」(Generative Adversarial Networks)の略で、生成ネットワークと識別ネットワークという2つのネットワークを使い、互いに競い合わせて学ばせるもの。たとえば前者がサンプルデータセットで学習して偽画像を作り、後者はそれを元のデータセットと比べてより本物に近い画像を出力するよう前者にコーチングし、しだいに精度を高めていく手法です。

そしてGameGANとは、NVIDIA研究所がGANに基づいて開発した最先端(2020年当時)AI技術のこと。昨年、上記のように多くの人が『パックマン』をプレイするのを観察して再現し、ルールや仕組みまで模倣した完成度の高さが驚かれていました

さてKinsley氏いわく「ここにあるすべてのピクセルは、私がプレイしている間にニューラルネットワークから生成されたものです」とのこと。「ニューラルネットワークがゲームの全てです。我々やRAGEエンジン(「GTAV」他のゲームエンジン)が書いたルールはここにはありません」と語っています。

GANはこれまでの機械学習に必須だった莫大なデータが大幅に減らせる一方で、非常に多くのGPUが必要です。そこでNVIDIA社は本プロジェクトのため、Kinsley氏らにDGX Station A100(AIワークステーション)を貸し出したとのことです。

このシステムはNVIDIAのA100 GPUが4つと、64コアのAMDサーバーCPUが搭載されています。Kinsley氏らは、そのすべてのコンピューティングパワーを使い、12個のルールベースAIを同時に実行したと述べています。これらによりゲームの世界生成に必要なデータを収集しつつ、表示出力をきれいにするためにスーパーサンプリングAIを開発し、ピクセルの粗が見えないようにしたとも語っています。

この動画では、GameGanがいかに『GTAV』に内蔵された多くのシステムを模倣しているかが確認できます。たとえば車の動きに合わせて下にある影や、リアガラスに映る反射光も変化したり、遠くの山も近づいてくる徹底ぶり。Kinsley氏らもAIのトレーニングを始めたときは、ここまでやるとは思っていなかったそうです。

ただし『GTAV』の全てが完ぺきに再現されているわけではなく、その1つが「衝突」の問題です。Kinsley氏は、対向車のパトカーが自分の車と衝突する直前に、2つに分裂したこともあったと振り返っています。

さすがに個人でGameGanによるゲームプレイの学習から追体験することは無理ですが(DGX Station A100の一般価格は2000万円以上)、生成されたプロジェクトの結果はGitHubに公開されており、ほとんどのコンピュータでデモを実行できるそうです。人間が1行もコードを書いていないAI自作の『GTAV』を楽しんでみるのもよさそうです。

Source:Playing a Neural Network's version of GTA V: GAN Theft Auto(YouTube)