Sponsored Contents

translatorの最新記事

Image credit:
Save

クラウドの力で進化。同時通訳機能もある自動翻訳ヘッドセット「WT2 Plus」を試してみた(本田雅一)

一方的な喋りにも追従。英語の認識精度はかなり良好

本田雅一, @rokuzouhonda
2019年7月21日, 午前09:00 in translator
44シェア
25
19,"likes":11
0

連載

注目記事

1億画素超えカメラ搭載スマホ、シャオミ「Mi Note 10」のグローバル版を試す。日本での発売に期待
12

1億画素超えカメラ搭載スマホ、シャオミ「Mi Note 10」のグローバル版を試す。日本での発売に期待

View
一昨年、ふたつのワイヤレスヘッドセットをセットにしたうえで、他言語の音声認識と言語間自動翻訳機能を実装した「WT2」という翻訳機が話題になっていました。ペアのヘッドセットを使って二者が異なる言語で会話するという、実にシュールな(そして、本当に役に立つんかいと思う)製品は、なるほどと色々な気付きを与えたようで、その後、いくつか同様の機能を持つ製品が誕生していました。

そして今年、そのWT2が「WT2 Plus」としてリニューアルされ、さらにその後のアップデートも順調に進んで良い製品に仕上がってきたと代理店からのアピールがあり、ならば少し使ってみようか......と試してみました。

ついでに結論を先に書いておきますが、英語と日本語の間のテスト結果で言うならば、使い方次第で極めて有益なツールだと感じました。後述するSimulモードにしていれば、逐次、文章ごとに会話を中断することなく翻訳を聴けるからです。しかもBluetoothで飛ばせるため、少し離れた場所に話者がいる場合でも、どんどん手元のアプリに話した内容が飛び込んできます。

ハードウェアはシンプルな"ふたつのヘッドセット"。1台のスマホアプリが全体を司る

WT2pro

ハードウェアはタッチセンサー付きで、充電機能付きケースが真っ二つに割れる形状。どちらがどの言語の話者なのかを区別するため、インジケータのデザインが変えられています。ケースサイズはBeats「Powerbeats Pro」と同程度。卵2個分ぐらいでしょうか? ややボリューム感はありますが、そのぶん軽量なので常に持ち歩くことへの抵抗はないと思います。

片方のヘッドセットを相手に渡し、それぞれの使う言語を設定すればOK。あとは自由に発言すれば、手元のスマホアプリにどんどんテキストが入っていきます。そしてその認識されたテキストの内容が翻訳され、今度は読み上げ機能で相手のヘッドセットに伝わる仕組みです。

WT2pro

類似するアプリとヘッドセットの組み合わせ商品は、他にもいくつかあるにはあるのですが、僕の知る限りほとんどが、交互にボタンなどを押して喋る逐次通訳です。本機にもその機能がありますが、"Plus"になって追加された"Simulモード"は、同時並行的にふたつのヘッドセット間の音声認識と翻訳を実行してくれます。

WT2pro
▲翻訳モードの選択。Simulモードはなかなか使いやすいですよ。一方的に話されても、それなりに理解できます

Simulモードでは「AからB」「BからA」といった流れを気にすることなく、話者の言葉が同時並行的に認識、翻訳されてスマホ画面へと表示。同時にそれぞれ装着している人の言語に合わせて音声が流れ続けます。

つまり、通訳の方向を気にせず、一方的に誰かが喋っている状況でも話している内容を把握できるわけです。価格は2万7780円(税込)。

WT2pro

さて、どこまで使いものになるのでしょうか。実際に使っていきます。

飛躍的に高まってきている英語の音声認識精度

......と、その前に。Engadget 日本版でも旅人ITライターの中山さんなどが、米ベンチャー企業「Otter」の音声認識サービスを絶賛していますが、僕もこのOtterのお世話になっています。


OtterはクラウドAIを用いて、極めて高精度かつ高速に英語の音声認識を行ってくれる音声メモサービスです。音声メモを取るのと同じように録音していると、その場でどんどんテキスト化してくれます。

しかも、話者の違いを認識してくれているため、Aさん、Bさん、Cさんといったように誰が喋ったのかを区別しながらメモしてくれるんですね。翻訳機能はありませんが、ウェブインターフェイスを持っているため、Chromeなどを用いてグーグル翻訳を間に挟むとスマートフォンで取り込んでいる音声に合わせ、リアルタイムでテキストが更新・翻訳されていきます。

ある程度、まとまった英語取材などの場合は、後々のメモや確認のためにOtterは必須の道具となっています。毎月10時間までは無料で使えるので、日本人がたまに英語の会議に出るぐらいの使い方ならば無料枠の中だけで充分に使えますよ。

ここでOtterの宣伝をしても仕方がないですね。

でもこのOtterの実力を知っていたため、英語の音声に認識ならばかなり高精度の結果が得られるだろうと確信していました。

ちなみにWT2 Plusは36の言語に対応します。具体的にどのような言語に対応しているかは製品ページを確認いただきたいのですが、日本人が通常のビジネスや生活の中でコンタクトするだろう人たちの言語には対応していると考えていいと思います。

今回は(僕自身が評価できる範囲ということもあって)英語にフォーカスしていきましょう。

英語は認識精度、発話ともに上々、日本語は音声認識が苦手

WT2pro
▲短文の例ですが、充分に伝わるのでは。少し堅苦しいけれど、相手も充分にわかって使っているのですから

WT2pro
▲もうひとつ長めの文章。こちらは一文目はなかなかイイ感じですが、ふたつめは途中の音声認識を誤ってしまいました。二つの文章に区切ればうまくいったかも

音声認識エンジンは全体の文脈を判断し、同音異義語も可能な限り文脈に沿ったものになる、近年のAI的アプローチによるものが使われています。どの認識エンジン、読み上げエンジン、翻訳エンジンを使っているかは公開されていないようですが、英語の認識率は極めて高いと感じました。

WT2pro
▲WWDC 2018でのティムクックのスピーチを認識させてみました。みっつ目の文章は謎ですが、最初の部分で「Swift」になった時は、おっやるな? と思いました

たとえばAppleのWWDC基調講演をソースに翻訳の様子を確認しましたが、文章全体がプログラミングの話であることがわかると、途中から「swept」と認識されていた単語が「Swift」に置き換わっているのが見えました。

WT2pro
▲こちらはGoogle I/O 2019の基調講演。一般的な挨拶の範疇であれば、かなりイイ感じに通訳されますね。ネイティブが本気で喋る始めると通訳が追いつきませんが、一方的な講演ではなく対話であれば、充分にやりとりできます

同じようにGoogle I/Oの様子を認識させてみましたが、部分的にうまく認識できていない部分があったとしても、ある程度は予想できる範囲に収まってくれています。

認識された音声は訳語とともに逐次アプリ上に表示されるため、それを互いに見ながらであれば誤訳などに気付いて対処することができるでしょうし、話者に一方的に話してもらっている場合でも、利用者側である程度、正しい言葉を推測できると思います。

すべての認識・翻訳はクラウド側で行われるため、回線状況が良い環境の方がベターですが、一般的な会話の手助けにはなりそうですね。翻訳精度も完璧とまではいきませんが、いわゆるクラウド翻訳を使いこなしている人ならば、ある程度、ビジネス上のコミュニケーションを行う場合でも問題ないレベル。日常会話ならばなおさらです。

WT2pro
▲同音異義語のテスト。材料は酸化するけど参加しない、というのはイイ感じですが、文章の冠詞は監視になってしまいました。コンテンツ類はテストの中では静的ではなく性的と認識。人物の更生も構成に。単語が離れている場合は、同音異義語の推測がうまく働かない場合も

ただし日本語の同音異義語認識に関しては、うまくいかないケースもありました。たとえば「静的」なコンテンツやアプリなどを表現しようとしても「性的」との区別は難しいですよね。

こうした同音異義語の認識では、まずは辞書上で優先順位の高い単語が使われた後、文脈をみて置きかえが行われるようです。上記の「せいてき」は「性的」が上位で、英語では「sexual」となります。性的も静的も同じ文脈で使われることが多いため、いろいろな言い方をしましたが「静的」と認識されることはありませんでした。

しかし「さんか」に関しては、第一優先順位は「参加」で当初はそのように表示されますが、全体の文章が「この素材の酸化を防止することができますか?」と素材について話しているとわかると、その時点で「酸化」へと置き換えられます。

WT2pro
▲こちらも同音異義語のテスト。どの単語と結びついて候補が選ばれるのか、クセを見つけた方が使いこなしやすそうです。英語に関しての認識率はかなり高いのですが、日本語、特に外来語が絡むとやや厳しいかな

ただ100%うまくいかない場合もあります。たとえば「間違った人の酸化を防止しましょう」と認識したケースもあります。"ひと"ではなく"防止"に寄せて、参加ではなく酸化を選んだのでしょう。

このようにケースバイケースなのですが、英語の認識に比べると日本語は判別精度がやや落ちるよう。もし使うならば、英語話者の相手に渡したうえで、自分の日本語を逐次、モニターした方がいいかもしれません。

日本語認識では、発音の微妙な違いで外来語だけでなく日本語認識も誤るケースがありました。「専門分野」を「専門文也」と毎回認識してしまい、「Specialty Fumiya」という特別な"文也"さんという人と訳されてしまいました。「せんもんのぶんや」と言い換えれば正しく認識されるんですけどね。

とはいえ、画面で認識結果をモニタしながら簡単な会話をするだけならばまったく問題ありません。おおむね堅苦しく、面白翻訳となってしまうこともありますが、まぁ、そこは相手と一緒に愉しみながら使うということでいいのではないでしょうか。実際に使ってみた画面をご覧下さい。

WT2pro
▲なかなか微妙な例ですが、なんとなく相手も察してくれるのでは。このように長い文章で話をするのは、あまりよく無さそうですね

どんな場面で使える?

ところで「Plus」と「Plus以外」の違いについて代理店に質問していたのですが、
  • 対応言語が7から36言語に増加
  • Bluetooth接続の改良により、省電力、通信安定性、通信可能距離8mと向上
  • Simulモードの登場(話者を自動で判別し、ボタン操作なしで翻訳可能)

が主なところだそう。ですが、英語の認識は精度が高いため、Bluetoothの改良は嬉しいところです。英語で施設内をツアーしてもらうときなどに、ガイドさんに装着してもらうだけでも助かります。声が聞き取りにくいときなどは、とりわけ母国語ではないため、聞き取れなかった部分を予測しようにも予測しきれずに困ることも多いですからね。

WT2pro
▲実際に話した内容と微妙に異なります。たとえば「私の話している内容を理解できていますか?」と質問をしているのですが、説明になっていたり。でも概ね伝えたいことは伝えられそうですね。短く区切るのがコツでしょう

実際に街に出て池袋で中国人の方々、渋谷でフランス人の方々、取材先でアメリカ人のビジネスパースンと簡単にやり取りしてみたのですが、中国語、フランス語、英語に関しては、概ね相手の言いたいことは伝わってきたように思います。

特に英語はいいですね(僕が英語で認識されているテキストを読めるというのもありますが)。自分ではまったくわからない中国語、フランス語でも、想像力を膨らませれば意思疎通の大きな助けになります。

WT2pro
▲僕はそういう使い方はする予定がありませんが、独身の方は外国人の方々と仲良くなるための道具に使ってみては?

会話する相手のスマートフォンに専用アプリを入れる必要がないため、手軽に使えそうです。使いこなしのコツは、なるべくシンプルに喋ること。東京オリンピック2020に集まってきた外国人の人たちと、ちょっとした会話を(誤訳・誤認識も含めて)楽しみたいならば、とっても楽しいツールですし、使いこなし次第では仕事にも活かせるでしょう。

WT2pro
▲デバイスを一切使わないスピーカーモードも便利です。いや、あの装置いらんのかい! というツッコミは別にして、目の前の人に一方的に伝えるだけならば、これでも充分

自然言語処理の製品だけに、不完全なところはありますが、思ったよりも使える! と感じられた製品でした。



広告掲載についてのお問い合わせはad-sales@oath.com までお知らせください。各種データなどはこちらのメディアガイドをあわせてご覧ください。

44シェア
25
19,"likes":11
0

Sponsored Contents