Engadget Japanese
Engadget Japanese

ワシントン大学の研究チームが、ピアノを弾く様子を鍵盤の真上から見た映像から、そのサウンドを再現する、いわばピアノ版読唇術をAIに体得させました。

音声のない映像からその音色を再現しようと思えば、まずは鍵盤のどのキーがどの音程を再現するかを覚えさせれば、ある程度は再現をすることができます。しかし、そのアタックの強さ、タッチの長さなどを細かく分析して知ることができなければ、演奏による抑揚の再現などはできません。

「Audeo」と名付けられたこのAIは、映像からそうした音程、音の長さ、強弱などをニュアンスからピアノそのものの音響特性も含めてデータ化し、それをデジタルシンセサイザーが解釈できる形に変換して、演奏を再現します。AIの教科学習にはピアニストYouTuberポール・バートン氏の動画を利用しました。

当然ながら目標は、Audeoがまだ見たことのない映像を再現させて、原曲と違わぬクオリティの音楽を奏でさせることです。研究チームは実際にAudeoに初見の動画を見せて解析、演奏させたところ、鼻歌などから原曲を探し出す「SoundHound」アプリは86%の認識率で原曲を特定しました。元の動画の音声からの認識率は93%だでした。たった7%の違いながら、研究をさらに進めればこjの差は切り詰められていくはずです。

主任研究者のEli Shlizerman氏は「われわれはこの研究によって、音楽と対話する新しい方法を可能にしたいと考えています」と述べています。例えば将来的には、Audeoをバーチャルピアノ仕立てて、カメラで人の手の動きを写すだけでライブ演奏をすることも可能になります。

また実際のピアノの上にカメラを置いて、ピアノ教室の生徒に演奏のしかたを教える新しい方法にAudeoが役立つかもしれません。Zoomなどのビデオ通話を通じ、向こう側の映像をAudeoが認識し、その演奏した音を手もとのスピーカーで鳴らすことができれば、新型コロナ禍で直接生徒と対面できなくとも、また大きな音を出さずとも細かい演奏テクニックを教えるなんてこともできそうです。

Source: University of Washington