NVIDIA、ビデオ会議のデータ量を激減する「AI圧縮」技術を発表

表情キャプチャ+再構成

Ittousai
Ittousai , @Ittousai_ej
2020年10月7日, 午後 06:58 in Nvidia
0シェア
FacebookTwitter
NVIDIA
NVIDIA

開催中の技術イベント GTC で、NVIDIAがビデオ会議向けにAIを使ったデータ圧縮技術を発表しました。

汎用のH.264圧縮に比べて10分の1以下に通信量を削減できるうえに、低速回線でもブロックノイズなどの画質劣化が少なく、さらにはカメラからずれた目線や顔を正面に修正してアイコンタクトも実現できます。

NVIDIA
NVIDIA

NVIDIAが公開した「AIベース動画圧縮」はビデオ通話や会議に最適化して、AIに人間の顔を学習させた技術。

従来のビデオ会議ソフトウェアは汎用の動画圧縮技術を使い、ある意味素直に映像を送っているのに対して、NVIDIAの「AI圧縮」ではまずローカルでカメラ映像内の顔を認識して、元となるキーフレームとして相手に送信します。

同時に目や鼻や輪郭など複数の特徴点を抽出して、キーフレーム以降はこの特徴点の動きだけを送信。受信側はキーフレームに対して特徴点の動きを組み合わせて顔の動きや表情を「再構成」することで、ベタに映像を送るよりも大幅に少ないデータ量で喋っている顔を送れます。

Nvidia
nvidia

要は写真をリアルに喋らせたり、顔を入れ替えるアプリのリアルタイム応用版。キーフレームも最初の一枚だけではなく必要に応じて送り続けることで、再構成後の表情が不自然になることを防ぎます。

顔や一般的なビデオ会議に映る映像しか「圧縮」できないものの、マスクやメガネ等を着用していても利用可能。NVIDIAによれば、この技術により H.264コーデック比で1/10や1/100といった劇的なデータ削減を実現します。

Nvidia
nvidia

映像そのものを常に送る必要はないため、極端に低速な回線でも、一般的な汎用の動画圧縮のようにノイズで画像が破綻しづらいことも特徴。

デモの例ではガクガクになったH.264圧縮以下のデータ量で、ノイズが少なく自然な動きを見せています。

Nvidia
nvidia

要は「動かす顔面モデル」と「表情キャプチャデータ」を同時に取得しているパフォーマンスキャプチャに近いため、再構成時に目線を動かしたり、顔の向きを変えることも可能。

デモの例では、画面を注視しているため目を逸らしているように見える状態を、カメラつまり通話相手をまっすぐ見ているように修正しています。

NVIDIA
NVIDIA

同様に、キーフレームを自分の顔でなく別の画像や3Dモデルにすることで、アバターやキャラクターを話させる技術としても。

NVIDIA の「AI圧縮」 技術は、このほか低解像度映像の超解像や、オーディオのノイズ除去、リアルタイムの翻訳、バーチャル背景といった技術と組み合わせたクラウドAIベースのビデオストリーミングプラットフォーム NVIDIA Maxine の一部として提供予定。

Maxine は現在アーリーアクセスを受け付けています。

NVIDIA MAXINE | NVIDIA Developer


【Engadget Live】iPhone 12発売日速攻レビュー

 

TechCrunch 注目記事新型コロナのソーシャルディスタンスを支援するビデオチャットアプリ8選

新型コロナウイルス 関連アップデート[TechCrunch]

 

関連キーワード: Nvidia, AI, maxine, video compression, video conference, news, tomorrow
0シェア
FacebookTwitter

Sponsored Contents