Sponsored Contents

aiの最新記事

Image credit:
Save

マイクロソフト、自然なテキスト読み上げを実現するAI研究を発表。音声サンプルはわずか200

自然なオレオレも実現するのかも

Kiyoshi Tane
2019年5月27日, 午後03:30 in ai
354シェア
53
301
0

連載

注目記事

折りたたみスマホ Galaxy Fold レビュー。ガチ勢専用の高コスト可変機
12

折りたたみスマホ Galaxy Fold レビュー。ガチ勢専用の高コスト可変機

Ittousai, 10月11日
View
iPhone 11 / Pro / Maxレビュー。「11以降」と旧型を分ける超広角カメラ標準化とAR・機械学習の関係

iPhone 11 / Pro / Maxレビュー。「11以降」と旧型を分ける超広角カメラ標準化とAR・機械学習の関係

Ittousai, 9月20日
View

AP Photo/Altaf Qadri

マイクロソフトの研究者チームは、わずかな音声サンプルから自然なテキスト読み上げを実現するAIシステムを開発したことを発表しました。この研究成果をまとめた論文は今年後半に米カリフォルニア州ロングビーチで開催される国際機械学習会議で発表する見通しで、今後数週間のうちにソースコードも公表するとのことです。

テキストから音声への変換機能は日進月歩で改良されていますが、自然な音声出力を生成するためには、今なお多くのトレーニング時間と音声サンプルが必要です。そうしたデータを集めるには多大な労力とコストがかかり、ハイテク大手以外の研究者が参入する上で壁となっています。

マイクロソフトの研究者チームは、そうしたネックを解消するAIシステム研究「Almost Unsupervised Text to Speech and Automatic Speech Recognition(ほぼ教師なしのテキスト読み上げと自動音声認識)」を発表しています。

このAIシステムは、99.84%もの単語理解精度を達成。その賢さもさることながら、注目すべきはたった200本、総時間にして約20分の音声サンプルとテキスト書き起こししか使用していない点です。

本システムの鍵となっているのは、GoogleのAI研究部門「Google Brain」が2017年に発表した新たなニューラルアーキテクチャ「Transformer」です。このアーキテクチャはあらゆる入力と出力の"信号"を脳神経のシナプス強度(情報の伝わりやすさ)のようにその場で重みづけし、長いシーケンスであれ非常に効率的に処理できるもの。

研究チームは、音声またはテキストを入力や出力として受け取れるTransformerを本AIシステムに組み込み、ノイズ除去自動エンコーダを併用して、効率のいい学習を実現したとのこと。手身近にいえば、人間の脳が書いた文章を理解した上でしゃべる働きを真似たものといえそうです。

現時点で公開されている音声は、人間のような自然さを備えながらも、少し機械音声の固さが残っている感はあります。が、音声サンプルの少なさを考えれば、悪くない結果とは言えそうです。

たとえばiOSには画面上の文字を読み上げる「VoiceOver」というアクセシビリティ機能がありますが、いかにもコンピュータがしゃべっている違和感はかなり大きなもの。いずれはハイテク大手のサービスが改善されることは間違いないはずですが、このマイクロソフトによる研究成果が広く公開されたなら、中小企業や研究者、アマチュアも音声による自然な対話型AIが作りやすくなるかもしれません。




「TechCrunch Tokyo 2019」11月14日、15日に開催



広告掲載についてのお問い合わせはad-sales@oath.com までお知らせください。各種データなどはこちらのメディアガイドをあわせてご覧ください。

Source: GitHub
関連キーワード: ai, google, google brain[, speech, Transformer
354シェア
53
301
0

Sponsored Contents