Sponsored Contents

mobileの最新記事

Image credit:
Save

英語音声自動認識&テキスト化サービス「Otter」をさらにリアルタイムで日本語翻訳する:旅人目線のデジタルレポ 中山智

これで英語での取材やビジネスミーティングも怖くない!

中山智 (Satoru Nakayama), @yenma
2019年3月19日, 午後12:00 in mobile
380シェア
195
185
0

連載

注目記事

HomePodレビュー。Apple MusicとSiriが家に来るスマート高音質スピーカー

HomePodレビュー。Apple MusicとSiriが家に来るスマート高音質スピーカー

Ittousai, 8月13日
View
旅人ITライター中山です。海外旅行が好きで、外国での展示会などを取材しているわけですが、よく聞かれるのが「英語できるんですね!?」という質問。ぶっちゃけるとあまり得意ではありません。外国人と話す機会がそれなりにあるので慣れはありますが、プレゼンやインタビューなどをリアルタイムで聞いて、100%ちゃんと理解しているわけではありません。記事にするときは録音した音声を聞き直したりしています。

このような状況で、最近同業者に人気なのが「Otter」というサービスです。iOSやAndroid用のアプリも提供されていて、スマートフォンをボイスレコーダー的に利用可能。利用料も600分までは無料で、それ以上使いたい場合は月額9.99ドルなどのプランが用意されています。

Otter
▲英語音声を自動でテキスト化してくれる「Otter」

「Otter」はボイスレコーダーの機能だけでなく、リアルタイムで自動テキスト化してくれる機能もあり、こちらがポイント。残念ながら英語のみの対応ですが、録音をスタートさせると、リアルタイムでどんどんテキスト化してくれます。認識精度もかなり高いのが◎。

音声認識はクラウド上で行っているため、インターネット接続は必要。未接続の場合でも本体に録音データは保存されているので、リアルタイムのテキスト化はできませんが、あとで接続時に音声データアップロードされ認識されます。

Otter
▲録音をスタートさせるだけで、どんどんテキスト化されていく

Otter
▲使い方はボイスレコーダーとほぼ同じ

録音内容がテキスト化されているので、録音した音声を再生するときは、アプリ上に表示されたテキストをタップすれば、その部分から再生可能。聞き直したい部分をピンポイントで指定できるので便利です。さらに再生中の単語はハイライトで表示されるので間違えて認識されてる場合も気がつきやすくなっています。

Otter
▲テキストをタッチするとそこから再生がスタートし、再生中の単語がハイライトされる

もちろん認識したテキストはエクスポート機能で出力可能。PCなどにテキストデータとして移して、翻訳サービスを使って和訳したりもしています。この機能だけでも記事化の際にかなり助かっているのですが、最近さらに便利な使い方をほかのライターさんから教えてもらいました。それがスマートフォンとPCを組み合わせて使ったリアルタイム翻訳です。

Otter
▲テキストのエクスポート機能もあり、タイムスタンプの有無なども指定できる

スマホとPCの2台使いでリアルタイム翻訳環境

まずスマートフォンでOtterアプリを起動させて、録音をスタートします。さらにPCのChromeからOtterへとアクセス。同じアカウントでログインすると、スマートフォンで録音&テキスト化しているデータのライブ表示が可能です。

Otter
▲「LIVE」とあるのがスマートフォンのアプリで録音中のデータ

この状態でChromeの右クリックメニューから「日本語に翻訳」を選択すると、Otterが認識した英語のテキストが表示されるたびに日本語へと翻訳されていきます。

Otter
▲Chromeの機能でサイト全体を日本語に翻訳する

Otter
▲英文が表示されると瞬時に日本語へと翻訳される

Otterの認識精度に加えてChromeの翻訳精度もあるので、100%正しい日本語翻訳が表示されるわけではありませんが、何を言っているか大体のニュアンスを掴むには十分。英語でのプレゼンでちょっと相手が何のことについて話しているのかわからなかったときに、チラッとPCのディスプレーに表示される日本語翻訳をチェックすれば話の流れを確認できます。

▲実際に使用している動画

ただ欠点もあります。英語にしか対応していないので、たとえばインタビュー相手が中国語でそれを通訳が英語に訳してくれるようなケースだと、中国語まで無理矢理英語と認識し、まったくデタラメな英文にテキスト化してしまいます。それと英語のネイティブスピーカーのほうが認識精度は高いようで、ネイティブスピーカーならどんなに早口でも精度の高いテキストになりますが、英語がネイティブではない人は発音がやはり違うようで精度が落ちます。

とはいえ、こういった音声認識サービスの精度はすごいスピードで進歩しています。いつ頃かやOtterがそうなるかはわかりませんが、いずれ多言語が混ざり合っても高い精度でしっかりと認識してテキスト化してくれるサービスが登場しそうです。




「TechCrunch Tokyo 2019」11月14日、15日に開催



広告掲載についてのお問い合わせはad-sales@oath.com までお知らせください。各種データなどはこちらのメディアガイドをあわせてご覧ください。

380シェア
195
185
0

Sponsored Contents