Techcrunch Japan Logo

Sponsored Contents

AIの最新記事

Image credit:
Save

モナリザが眉をひそめる、1枚の絵画にAIで命を吹き込む技術が発表(TechCrunch)

アインシュタインやマリリン・モンローも生き返る。ダンスはまだできない。

TechCrunch Japan Staff
2019年5月25日, 午後06:00 in Ai
569シェア
89
480
0

連載

注目記事

HomePodレビュー。Apple MusicとSiriが家に来るスマート高音質スピーカー

HomePodレビュー。Apple MusicとSiriが家に来るスマート高音質スピーカー

Ittousai, 8月13日
View




機械学習の研究グループが、人間の顔写真1フレームだけから生きているような動きを再現するシステムを開発した。写真だけでなく絵画も動かすことができる。まだ完璧ではないが、(今日の多くのAIがそうであるように)うまくいったときは不気味かつ魅惑的だ。

モデルの詳細はSamsung AI Centerが発行した論文に書かれており、Arxivで読むことができる。元の顔(どんな顔でもいい)の特徴点をターゲットの顔データに対応させて元の顔の動きを再現する部分に新しい手法
​が使われている。

これ自体は新しくない。これはAI世界が現在直面している画像合成問題のひとつだ(最近TechCrunchが主催したロボティクス+AIイベントで興味深い議論がなされた)。ビデオの中である顔が話しているところ、見ているところを別のビデオの顔に当てはめることはすでに行われている。しかし、こうしたモデルの多くは1~2分のビデオを分析するためにも膨大なデータが必要になる。

しかし、サムスンのモスクワ拠点の研究者たちはこの論文で、わずか1枚の顔写真だけを使って顔の向きを変えたりしゃべったり普通の表情を見せるビデオを作ることができる。画質は完璧には程遠いが、説得力はある

このモデルは、膨大なデータを使って顔の特徴点を認識することで、ターゲットの顔と元の顔との対応部分を効率的に見つけることができる。データは多ければ多いほどよいが、必要な画像は1枚だけでシングルショット学習と呼ばれている。アインシュタインやマリリン・モンロー、モナリザでさえ生き生きとしゃべらせることができるのはこのためだ。

このビデオではモナリザを3種類のソースビデオを使って動かしている。顔のつくりも動きも大きく異なっていることがわかる。

モデルはGenerative Adversarial Network(GAN、敵対的生成ネットワーク)と呼ばれるシステムも使っている。これは2つのモデルを競わせて、お互いに自分の作ったものを「本物」だと思わせてだまそうとするものだ。その結果クリエーターが設定した一定の現実レベルに近いものになる。この「差別化」モデルは対象が人間の顔であることが90%確信できないと処理を続行できない。

研究者らが見せてくれた別の例を見ると、ものによってニセの顔のしゃべり方の質が大きく異なる。ケーブルニュースから取ってきた人物の画像を再現しようとした例では、画面の下に表示されていた株価テロップまで再現して意味不明ものがはめ込まれていた。ほかにもよく見るとにじみやブロックノイズはあちこちに見られる。

それでも、その結果は素晴らしいものだ。ただし、これは顔と胴体上部にしか使えないので注意されたい。モナリザが指を鳴らしたりダンスしたりするところは作れない。今のところは。

[原文へ]

(翻訳:Nob Takahashi / facebook




「TechCrunch Tokyo 2019」11月14日、15日に開催



広告掲載についてのお問い合わせはad-sales@oath.com までお知らせください。各種データなどはこちらのメディアガイドをあわせてご覧ください。

関連キーワード: AI, monalisa, Samsung, techcrunch, technology
569シェア
89
480
0

Sponsored Contents