ニューラルネットワークを利用したAI技術Neural Machine Translation(NMT, Googleを足してGNMT)を投入し、飛躍的に翻訳精度を向上したGoogle翻訳ですが、研究者がGNMTはあまりAI学習させていない言語の間でも相当な精度で翻訳が可能になると発表しています。
Google翻訳は103の言語を扱い5253とおりの組み合わせで翻訳作業が可能です。しかし実際にこれらすべての組み合わせを充分に学習させるには途方もないCPU処理能力が必要とされるのは想像に難くありません。
例をあげて説明すると、たとえば英語と日本語、英語と韓国語といった組み合わせは学習機会が多く、AIもすでに相当「鍛え上げられた」状態になっているとします。一方で、日本語と韓国語という組み合わせの翻訳は学習量が不足しており(たとえばの話。実際がそうと言っているわけではありません)、まだ翻訳精度が低いかもしれません。
そこで研究者は英語と日本語、英語と韓国語の組み合わせをよく学習させたあとで、学習機会の少ない日本語と韓国語の間でうまく翻訳できるだろうかと考えました。研究者は「答えはイエス。まだ学習させていないはずの日本語と韓国語の間の変換でも、それなりの翻訳ができるようになった」としています。
ということは、Google翻訳のAIがさらに本気を出せば、ある言語の組み合わせで学習が進むと、それに引っ張られて他のマイナーな言語どうしでの翻訳力も上がっていくと考えられます。
またある実験では、研究者は1組の言語ペアを鍛えるのに使う学習用文章セットと同じサイズで12言語をつめ込んだ文章セットを用意しました。当然ながら1言語あたりの学習量は少なくなりますが、このセットをAIに学習させてみたところ、通常のセットで学習させたのに比べれば少し低精度ながらそれなりにきちんと翻訳が可能になったとしました。研究者らは「このアプローチを"Googleの規模"で展開していけば、かなり速い速度で多言語対応を進められるだろう」としています。
AIとはいえ勝手に言葉や意味を覚えると聞かされれば、やれコンピューターが感情を...とかスカイネットが...とか言いたくなるかもしれないものの、そこは心配いりません。特定の言語資源の収集によって中間的な言語モデルを作り、資源の乏しい別の言語まで自動的に学習するしくみはゼロショット学習などと呼ばれ、言語処理やその他の分野でも研究が進められています。
AIによる翻訳プログラムは様々な企業や機関が長年研究を続けてきました。しかし、ここへ来てのGoogle翻訳の向上っぷりを見ると、もう少しすれば洋書の翻訳や映画の字幕、海外ニュースまであらゆる翻訳文に「翻訳:Google」と添えられるようになるのもあっという間かも、と思わずにはいられません。