iFLYTEK VOITER

雑音環境下での音声認識技術を競う国際コンテスト「CHiME」で2016~2020年(隔年開催)に3回連続で世界No.1を受賞したとアピールするiFLYTEKが、音声を自動でテキスト化するAIライティングレコーダーVOITERの予約販売をMakuakeで実施しています。

上位モデルのVOITERと、少しお手軽なVOITER miniがありますが、今回はVOITERのほうをお借りしたので、簡単に紹介したいと思います。

スマホのようなVOITER

VOITERの見た目は小型のスマートフォンのような雰囲気。実際、レコーダーとしては大型のディスプレイを備えています。サイズや解像度の詳細は公開されていませんが、実測したところ約8.8cm(約3.5インチ)でした。

iFLYTEK
▲中身はカスタマイズされたAndroid

ステータスバーのバッテリーアイコンやWiFiアイコンを見てもわかるように、中身はAndroidです。ちなみに、SIMカードも挿せます。スマートフォンではないので、電話をしたり、メールやブラウザを使ったりはできませんが、録音データのアップロードや文字変換のクラウドサービスをどこでも利用可能になります。

iFLYTEK
▲SIMも挿せます。LTE Band 1/3/8/41に対応

そして、背面には800万画素のカメラも搭載。スナップ写真を撮影するものではなく、講演の様子やスライドなどを撮影するためのもの。動画の撮影にも対応しています。

iFLYTEK
▲背面カメラは800万画素

上部には指向性マイクが2つを装備。これとは別に、ディスプレイの周囲に6つの無指向性マイクも備えています。

iFLYTEK

なお、残念ながら3.5mmジャックは非搭載。録音したデータを聴く際には、本体のスピーカーを利用するか、BluetoothあるいはUSB接続のイヤホンが必要です。この辺りはスマートフォンに寄せず、3.5mmジャックを残しておいて欲しかったところです。

iFLYTEK
▲底面にはスピーカーとUSB-C

VOITERの機能

スマートフォンのような見た目ながら、VOITERの基本機能はレコーダーです。特に難しい設定はなく、録音を開始すると同時に文字起こしも行われます。録音の合間に画像の撮影も可能。また、動画撮影と同時に文字起こしも可能です。

iFLYTEK
iFLYTEK

録音モードには、「会議」「講演」「取材」「標準」「メモ」「音楽」の6つがあり、それぞれのシーンに最適な録音を行うようです。各モードは以下のような説明となっています。

  • 会議モード:会議室などで10人以内の会議、3~5人のビジネスコミュニケーションなど、多方向からの発言の録音に適しています。

  • 講演モード:大教室や大会議、大規模な講演会など、会場が広くて人数が多いシーンに適しています。

  • 取材モード:対面での対話、記者取材、インタビューなど、1対1から3人までのシーンに適しています。

  • 標準モード:会議や教室など、ほとんどの録音シーンで汎用的に利用できます。

  • メモモード:オフィスや家庭での一般的なメモ記録や音声日記の入力など、メモを取るシーンに適しています。

  • 音楽モード:ピアノ発表会、交響曲コンサート、演劇、オペラ等のようなコンサート、ソロ演奏のレコーディング、あるいは高音質で録音したいときに適しています。

どのモードでも基本的に2つの指向性マイクと6つの無指向性マイクのすべてが利用され、ノイズの低減処理も行われますが、会議モードは6つの無指向性マイクのみを利用し、レコーダーを参加者の中央に配置するような使い方となります。また、音楽モードでは、現場の音響を活かすため、ノイズ低減の処理は行われないとのこと。

各モードのアイコンをタップすれば、そのまま録音が開始されるほか、本体左側面にある録音ボタンをダブルタップすると、標準モードでの録音が開始されます。

iFLYTEK
▲赤いのが録音ボタン。ダブルクリックで録音を開始します

なお、録音中、リアルタイムで文字起こしが行われ、画面上に表示されますが、この内容は保存されません。録音終了後、クラウドにアップロードされると、あらためて文字起こしを実施。その後ようやく内容を確認できるようになります。文字起こしの精度の問題だと思いますが、せっかくリアルタイムで文字起こしをしているのなら、精度が低いという前提でこちらのデータも残しておいてほしかったところです。

iFLYTEK
▲録音中、どの方向に音源があるのかを表示可能

文字起こしは基本有料

ちょうどいいタイミングでのウェビナーやミーティングがなかったので、とりあえずYouTubeの音声で文字起こしを試してみましたが、精度はそれなりといったところです。もちろん、何の手直しも必要なく使えるというものではありませんが、文字起こしの手間は大きく削減できそうです。

ただ、句読点は自動で入るものの、改行はされず、話者の識別もありません。正直、文字起こしされた文章をそのまま読むのはつらいと感じました。それでも、端末上では音声再生されている箇所のテキストが青く表示されるので、どこを読んでいるのかは、わかりやすくなっています。

iFLYTEK
▲ディスプレイのスピーカー前に置いて録音

ちなみに、端末上では文字起こしされたテキストを編集などはできず、編集するにはクラウドにアップロードしたあとにメールなどで共有するか、オンラインサービスの「RECORDER STATION」を利用する必要があります。

iFLYTEK
▲クラウドサービスの画面

注意点としては、クラウドサービス自体は無料で10GB使えるのですが、文字起こしは有料です。Makuakeでの応援購入には1年分の使い放題プランが含まれていますが、2年目以降は無料で利用できるのは毎月3時間分まで(ベーシックプラン)。それ以上は、月額2180円(税込)の使い放題プランの経由が必要となります。

文字起こしの手間を少しでも減らしたい人向け

単に録音・文字起こしだけなら、専用ハードを使わなくてもスマートフォン用アプリがいろいろと出ています。それらを使い、スマートフォンの内蔵マイクあるいは外付けマイクで録音しても大抵の場合は満足できるのではと思いますが、騒がしい環境や広い会場で登壇者の声を拾うには、2つの指向性マイクを備え、ノイズ低減処理もあるVOITERのようなハードを使った方が、よりハッキリとした音声で録音は出来そうです。ノイズが少なくなれば、その後の文字変換の効率も上がるはず。

それでも、4万円強という価格は手が出しにくいと思う人も多いはず。そういった場合には、同じ音声認識技術を使ったVOITER miniを検討してもいいかもしれません。ただしこちらは指向性マイクを搭載しておらず、360度から収音します。講演や発表会などでは使いづらいですが、一般的な会議などでは十分でしょう。

関連:

Makuake|議事録に、AI革命。音声をテキスト化するAIライティング レコーダーVOITER|マクアケ - アタラシイものや体験の応援購入サービス