Sponsored Contents

aiの最新記事

Image credit:

1.5秒先の未来を映像化するAI、MIT研究者が開発。「それっぽい動き」をぬめっと自動生成

むにゅむにゅしてます

Ittousai , @Ittousai_ej
2016年11月29日, 午前11:50 in Ai
1537 シェア
175
1109
0
253

連載

注目記事

Amazon Echo Dot速攻レビュー。スキル試行は最初のスマホ的な楽しさ、日本語周りは意外な弱点が

Amazon Echo Dot速攻レビュー。スキル試行は最初のスマホ的な楽しさ、日本語周りは意外な弱点が

View

人気記事



MITの研究者が、一枚の写真から1.5秒先までの動画を自動生成する技術を発表しました。

写真を入力として渡せば、ゴルフ場を歩く人々や海岸に寄せる波、線路を走る列車などをおおむねそれっぽく動かすことができます。




この技術を発表したのは、Carl Vondrick氏ほかMIT CSAIL(計算機科学・人工知能研)の研究者チーム。

方法をふわっとした感じで説明すると、まずFlickrなどのソースから「ゴルフ場」「ビーチ」などの動画を長さ合計一年分ほど集め、いわゆるDeep Learning の手法でシーンごとの動きモデルを生成します。

人間の場合は自分がどこで何を見ているのか、人間だとすればどのように脚を動かしてどう動くか、などを膨大な常識として学んでいるため、突発的な動きでもない限り先を予想することができます。

しかしこの「動きモデル」には重力や地面や水や動物などの概念はなく、単なるピクセルの連なりから前景と背景を切り出し、動く部分だけを「ありそうなパターン」として学習してゆきます。



ここで使われるのは generative adversarial networks (GAN)、生成側の「ジェネレータ」と判別側の「ディスクリミネータ」の2つのネットワークを競わせ強化する手法。生成側は大量のデータからの学習をもとにノイズから動画を作り、判別側はデータセットにある本物の動画と生成されたウソ動画を判別するよう反復して鍛えられます。

サンプルに本物があることで判別側は正解に向けてネットワークを鍛えることができ、生成側はうまく判別側を騙せる用に鍛えられるのがミソです。

この二種のネットワークを競わせる手法自体は以前からコンピュータによる静止画生成でも使われており、今回の発表はこれを動画へ拡張する際の課題と実証についての内容です。

こうしてシーンごとに鍛えられたジェネレータは、ランダムなノイズを与えられても、そこから自分が知っている映像のパターンに近いものを見つけ出し、オリジナルが存在しないけれど「それらしい」短いビデオを生成できるようになります。



こうしてAIネットワークがノイズから空目した、実在しない場面はこちら。実際の動画は、特に人間の目が敏感に識別できる乳児の顔などはややグロテスクなため、気にならないかたはMITのサイトで確認してください。

「未来の映像」を生成するには、こうして作られたネットワークに、最初の一枚となる静止画を入力します。結果はこのとおり。




人間の目で見れば明らかにおかしく歪んでいるものの、「どこが動く部分か」「どのように動くか」については、常識を持たない機械にしてはおおむね正しく生成できています。


(人間のような常識で判断していないことは、電車が動いているのに背景にも電車が残ってしまい、電車が脱皮しているような失敗などから見て取れます。また人間の歩行や解剖学的な知識もないため、歩く人はなんとなく溶けてフニャフニャと動いています)


「未来を映像化するAI」と言うと、いかにも未来を予知する超人的な特殊能力のように聞こえます。しかし実際には突発的な動きを読めるわけではなく、人間ならば簡単にこなす「直後に普通はこうなる」が不器用に描けるようになった段階です。原理的にも、人間が未来予測に期待する「予知」や変化を読むものではありません。

それではあまり意味がないのかといえば、もちろんそんなことはありません。人間には簡単でもコンピュータにとっては難しい「普通はこうなる」がごく短時間とはいえ描けるということは、逆に突発的な事態が起きているかどうかを検出できるということ。

研究者チームによれば、監視カメラやロボット、自動運転車などのコンピュータ視覚にこうした機能をもたせることで、異常な動きを検出する応用が考えられるとのこと。

また動きに関する「知識」を獲得することで、一枚の静止画や限られた情報から、何を見ているのか、この入力には何が写っていてどう動くのか、何をしているところなのか、を認識する能力も向上します。


(画像および架空の武術ガン=カタは記事内容と無関係です。使いたかったので適当な場所に挿入しました)


「お前の動きは見切った!」と意図を先読みするAIはまだ難しくても、予想外の行動にファッ?!と驚く人工知能はこうした研究の先に実現しそうです。

元論文は
Generating Videos with Scene Dynamics (Carl Vondrick, Hamed Pirsiavash, Antonio Torralba)



膨大なサンプルから「っぽさ」を学習、ノイズを与えれば幻覚を生成できるニューラルネットワークは Googleの研究者が名付けた「Inceptionism」で昨年話題になりました。

今回の未来映像生成は、こうした機械学習と画像生成を動画つまり動きの方向にも拡張した研究です。

Google、人工神経ネットワークが見た『夢』を公開 (※ 微グロ注意)

Gallery: Googleの画像認識AIが見た夢(" Inceptionism " Images) | 21 Photos

Source: MIT
関連キーワード: ai, cv, GAN, mit
1537 シェア
175
1109
0
253

Sponsored Contents