Image credit:
Save

言葉の壁を壊す新発想求む。総務省が多言語音声翻訳エンジンの活用コンテスト開催

国立研究開発法人情報通信研究機構(NICT)フェロー 隅田英一郎氏にインタビュー

Engadget JP Staff, @engadgetjp
2018年11月26日, 午前11:00 in translator
107シェア
24
30
0
53

実現した「翻訳機」の秘密。NICTの多言語音声翻訳技術


話しかけるだけで翻訳を読み上げてくれる「翻訳機」が、各社から発売される時代になりました。

ほんの少し前までは空飛ぶクルマのように、発想簡単・実現困難な「想像の未来」の代名詞だったものが、いまや量販店にも当たり前のように売り場ができ、メディアでもたびたび目にします。

こうした翻訳デバイスやアプリの精度向上と急速な普及の裏には、日本の国立研究機関 NICTが長年研究してきた「多言語音声翻訳技術」があることをご存知でしょうか。

機械翻訳といえば、Googleやマイクロソフト、中国のBaidu(百度)などが莫大なリソースを投入して競争を続ける先端技術。しかし日本のNICT(国立研究開発法人情報通信研究機構)も、実はそうした巨大企業と肩を並べる有数の存在です。

そのNICTが翻訳技術を広く開発者に提供したことで、音声認識や多言語翻訳といった中核部分は高精度なエンジンを利用しつつ、さまざまな用途にあわせたデバイスやサービスという応用部分に各社が注力できるようになり、多様な製品が次々と登場するようになりました。

斬新な発想を一般から募る「多言語音声翻訳コンテスト」開催



さらに総務省では、『世界の「言葉の壁」をなくす』ことを掲げたグローバルコミュニケーション計画の一環として、このNICTの多言語音声翻訳技術をどう活用するか、広く一般からアイデアを募る企画「多言語音声翻訳コンテスト」を開始しました。

対象は中学生以上なら誰でも。個人、グループを問いません。

アイデアだけで簡単に応募できる一方、入賞すれば実際に動く試作品の制作資金や、ものづくり面のアドバイザーとのマッチングといった支援も得られます。


​​​​​

日本発の自動翻訳技術開発を率いるNICT 隅田英一郎氏インタビュー


「アクセル全開で夢を描いてほしい」

多言語音声翻訳コンテストに向けて、NICTのフェロー隅田英一郎氏にお話をうかがいました。

隅田氏は30年以上前から自動翻訳技術の研究に携わり、現在は多言語音声翻訳技術の普及に向けた取り組みも指揮する立場。いわば、翻訳機を想像の未来から現実にした立役者と呼べる人物です。

日本からはじまった音声翻訳技術

―― そもそも音声翻訳はいつごろから研究がはじまった技術なのでしょうか?

1986年に基礎研究としてスタートしました。世界で初めて「音声翻訳をやろう」と言ったのは実は日本なんです。

なぜ基礎研究かというと、当時の自動翻訳の技術は、マニュアルのような文法通りの硬い文章しか翻訳できなかったから。話し言葉はまったく翻訳できなかったんですね。それに音声認識の技術も、特定の話者が雑音のない場所でマイクに向かってしゃべるものを認識できるレベルで、今みたいにスマートフォンやスマートスピーカーに自然に話しているものを認識するようなものではありませんでした。

そういったこともあり、デモンストレーションできるプロトタイプが完成するまでに7年を要しています。30年経って、人の役に立つ使える技術になってきたというところです。

―― 基礎研究だった音声翻訳が総務省の「グローバルコミュニケーション計画」の中核になったキッカケはなんだったのでしょうか?

2013年に当時の新藤総務大臣が、我々の研究所にたまたま来られてデモンストレーションに感動されたことがきっかけです。総務省に帰ると直ぐ、「天の啓示を聞いた」と仰って、担当に「音声翻訳技術を実用化するように」といった感じだったようです。その翌々日に東京でオリンピックが開催されることが決まって、「これはもうやるしかないな」と。

―― 総務大臣が感動したのはどんなデモだったんですか?

スマートフォンアプリのVoiceTra (ボイストラ)を使ったものでした。当時は誰の声でも認識して翻訳できるようになり、スマートフォンの進化で騒がしい場所でも音声認識できるようになったことで、音声翻訳が使えるレベルになりつつある段階でした。また、通信が3G,4Gと進化してきて、音声データを快適に飛ばせるようになったことも大きいです。

GoogleBaiduと肩を並べるNICTの技術

―― 一般的な消費者にとって、機械翻訳で思い浮かぶ代表的なサービスはGoogle翻訳だと思います。他にもマイクロソフトやBaiduなどの世界的な企業が注力する分野だと思いますが、そのなかでNICTの存在はどのようなものですか?

トップクラスに入っていると思います。アメリカはGoogleとマイクロソフト、Facebook、Apple。中国ではBaiduとテンセントが熾烈な競争をしています。この中で、各国ひとつだけピックアップしろと言われれば、GoogleとBaiduです。NICTはこの2社に並んでいると思います。

―― 正直、組織の大きさも資金力もそうした巨大IT企業のほうが多いと思うのですが、なぜNICTはトップクラスで居られるのでしょうか。

この分野のアルゴリズムの研究はオープン化が進んでいて、新しいアルゴリズムができたら論文を書いてすぐ公開します。だから、世界中の自動翻訳システムのソフトウェア部分は似たものになってきているんですね。

でも自動翻訳は総合的な技術なので、ソフトウェア以外、たとえば単語の認定やAI、音声認識などのチューニングが必要です。日本人は日本語に対するチューニングができますが、アメリカ人にそれをやれといっても無理があるんです。

それに、GoogleもBaiduもものすごい資金力と計算機を持っていますが、例えば100言語の翻訳システムをつくろうと思うと、100×99で9,900通りの組み合わせがあります。さすがにこれをすべて学習させるためのお金はかけられない。そのため選択と集中が起こり、Googleなら英語中心、Baiduなら中国語中心、NICTは日本語中心にお金をかけて研究します。それぞれが棲み分けているからこそ、リソースの差はあってもトップクラスというのはあります。

こういった話をすると「とはいえ、どうせGoogleがやってくれるんだろうから、NICTが頑張らなくてもいいんじゃないか」という意見をいただくこともあります。でも、Googleがこの先も日本語の翻訳を続けていく保証はないわけです。

―― 非​常によく分かります。サービスが継続するかどうか、日本語や国内事情に対応してくれるかは、日々身に沁みていますので。

いつ辞めるかって不安もあるじゃないですか。ビジネスである以上、そういうことは起こり得ます。だからこそ、音声認識や翻訳は基盤技術でもあるので、日本の国立研究所がちゃんとしたものをつくって、日本の各企業におろしていく仕組みをつくっていかないといけないと思っています。

それに国防のことを考えたときに、日本の防衛省が海外企業の技術を無警戒に使うことはあり得ないですよね。海外のクラウドを使えば、海外に情報が流れてしまいかねないわけですから。それはまずいと。

自動翻訳は今後数年で劇的に進歩する

―― 音声翻訳や機械翻訳はここ数年で急に進歩した感がありますが、現在の状況と、さらに次の段階に進むための課題を教えてください

現状の課題は一文一文をバラバラに翻訳していて、全体の文脈を見られていないことです。例えば、「もうすぐ着きます」という文章を日本語から英語にしようと思ったときに、「We will come soon」という「We」を主語にした訳もありますし、「It will come soon」というのもありますし、もっと具体的に、「The bus will come soon」というのもあります。日本人はとくに主語を言わないので、文脈がわからないと正しい翻訳はできません。

文ごとに主語を補ってもある程度は当たるし、主語がいらないこともあります。それに、一文単位の翻訳精度も上がっているので、使えるところまではきました。とはいえ、文脈をみて翻訳できればもっと良くなるはずです。

現在の自動翻訳は、正しく翻訳できていたとしても、誰が何について話しているのか、意味については全く分かっていないんです。そうした点を補う文脈処理に関しては、すでに大学などで基礎研究として一生懸命取り組んでいるので、あと2年3年経てば大きく進歩していると思います。今は「文脈処理がこれからはじまる、新しい時代の夜明け」みたいな状況です。

写真のキャプションってありますよね。キャプションを翻訳する場合、今までは写真を無視してキャプションだけを翻訳していましたが、現在は機械学習で画像を認識して、テキストを生成することもできます。この両者を使うことで曖昧性を解消して精度を上げてゆく手法については、すでにコンペも実施されています。

―― 写真データとテキストのペアを使うとなると、Googleが有利になりそうですね

一概にそうとも言い切れません。ニューラルネットワークを活用した機械学習になってわかってきたことは、データは多ければ多いほどいいのは確かなのですが、質の良いデータであれば少なくても良いということ。逆に言うと、質の悪いデータが入ると、ニューラルネットワークはクレイジーな結果を出すこともわかってきました。

ですので、データをキレイにするという新しい課題が生まれてきました。どうやってキレイにするかは、それぞれの組織が頑張って考えるところだと思います。機械的にやるところもあるでしょうし、人の力でおこなうところもあると思います。

データがキレイになれば性能はグーンと上がります。

―― ほんの数年単位で、まだまだ進歩してゆくわけですね

まだまだ止まりそうにないですね。

―― 「先の話ですね」だとか「将来的にはいずれ」といったお答えだと思っていたので意外です。

あ、すいません。やはり「10年はかかります」って書いておいてもらえますか。「自動翻訳の精度はどんどんあがります。でも、できないことも山のようにあります。自動翻訳の研究予算は永遠に必要です」でお願いします(笑)。


アイデアに失敗はない。アクセル全開の挑戦を

―― NICTが多言語音声翻訳技術を提供することで、「ili」のような翻訳機が民間から登場してきました。隅田先生からみて「この発想はなかった」というようなアイデアやサービスはありましたか?

とても思いつかないな、すごいなと思ったのは、パナソニックのメガホンの形をした翻訳機「メガホンヤク」ですね。空港のような場所や、災害時であるとか、大勢の人に多言語で指示する場面で使うことは考えもしませんでした。

あとは、富士通が開発したウェアラブル型のハンズフリー音声翻訳端末です。胸に端末をつけて使うのですが、日本語話者が使うとして、上からの声は日本語、前方からの声は外国語と判定するので、指で切り替えたり操作しなくていいんです。医療現場で使うために、画面に触る必要がなく、両手が自由になるよう開発されているんですね。

―― 今回のコンテストに応募しよう、アイデアで一旗揚げようという学生やエンジニアに一言お願いします。

ベースとなるソフトウェアはNICTが提供します。APIを提供しますので、普通にプログラムができる人なら、もう造作もなくシステムを組めます。音声認識とか翻訳に関してはお話した通りトップクラスですので、性能も気にしなくて大丈夫です。言語数についても、日本語から始めてミャンマー語まで、10言語使えます。これからも増えてゆきますので、ここもあまり気にしなくていいと思います。

だからこそ、まったく制限なしに夢を描いてほしいと思います。ウォルト・ディズニーの有名な言葉に、「夢を描ければそれは実現できる」というものがありますが、まず夢です。夢があると、誰かが手伝ってくれて、実装もできる。ですので、アイデアコンテストでは斬新な夢を描いてほしいと思います。

また皆さん普段は上司や、顧客、ライバル、嫁、姑など色んな人やコトに我慢していると思うので、自分を開放していただければと。研究者のあいだでは、「ブレーキがない」は誉め言葉です。アクセル全開で挑んでいただければと思います。

失敗はないですから。何を言ってもいいし、決してだれも怒りません。

多言語音声翻訳技術の導入事例

ili (イリー)

ili Translator

2013年創業の株式会社ログバーが2017年に発売したウェアラブル音声翻訳機。クラウド接続不要で瞬時に反応するオフライン翻訳とスリムな本体、長時間駆動が特徴。

旅行に特化した個人向けバージョン、外国人観光客の接客に特化した法人向けバージョンなど、用途に応じたバリエーションを展開中。

メガホンヤク


パナソニックが法人向けに提供するユニークなメガホン一体型翻訳機。交通機関やイベント会場での案内・誘導に特化した定型文約400を内蔵し、文中の特定ワード選択とあわせ約4000の文章を4カ国語でメガホン再生できる。音声認識で定型文を検索・選択する仕組み。

定型文の追加・更新とメンテナンス用クラウドサービスをあわせて提供。

多言語音声翻訳コンテスト 開催概要



主催:総務省、国立研究開発法人情報通信研究機構(NICT)
対象:多言語音声翻訳技術を活用するハードウェア・ソフトウェアのアイデア
応募資格:中学生以上(未成年の場合は保護者の承諾が必要)
応募方法:コンテスト公式サイトの応募フォームから送信

スケジュール

2018年11月13日(火) アイデア応募受付開始
2018年12月20日(木) アイデア応募受付終了
2019年1月12日(土) アイデアコンテスト審査会および表彰式

優秀なアイデアとして選出された場合、並行して開催される試作品(PoC, Proof of Concept)コンテストへの無審査参加が認められます。

さらにアイデアをかたちにするための技術やものづくり面をサポートする相手とのマッチングと、試作品の開発資金(最大50万円)も提供されるため、将来の実用化やビジネス展開へ向けた支援も得られる大きな機会です。

多言語音声翻訳コンテスト(公式)

関連キーワード: contest, ideathon, translation, translator
107シェア
24
30
0
53