sourcenext Junya Ishino

ソースネクストが、コロナ禍の需要にこたえる新製品、新サービスを発表しました。メインとなったのは、オンライン会議をより快適にする新ブランドの「KAIGIO」。このブランドの下で、Zoomを自動で全録してスクリーンショットまで作成してくれる「全録KAIGIO」や、オンライン会議専用端末の「KAIGIO MeePet」、オンライン会議時のカメラを自動で分割表示する「満面KAIGIO」が発表されました。

sourcenext Junya Ishino
▲オンライン会議関連の新ブランドや、ポケトークの新機能を発表したソースネクスト。写真は左が松田憲幸会長兼CEO、右が小嶋智彰社長

こうした製品の詳細は別記事に譲るとして、筆者が気になったのは「AutoMemo」のアップデート。AutoMemoとは、録音した音声ファイルをスマホ経由でクラウドにアップロードして、テキスト化してくれる製品で、発売時には筆者もレビューしていました。新機能は、ハードウェアのアップデートではなく、AutoMemoのテキスト化機能を切り出し、Webサービスとして提供するもの。厳密に言えばハードウェアとしてのAutoMemoの新機能ではなく、新サービスといった趣の強い機能になります。

sourcenext Junya Ishino
▲2020年12月に発売されたAutoMemoには、新サービスが加わった。ハードウェアがなくても利用できる

このサービスを利用すれば、ハードウェアとしてのAutoMemoがなくてもOK。スマホのボイスレコーダー機能で録音した音声データをアップロードするだけで、AutoMemoと同じエンジンで文字起こしが実行されます。専用のハードウェアを買うまでは頻繁に録音しないものの、会議の議事録などを1か月に1、2回作るという程度の利用であれば、この新機能で事足りてしまいそうです。

サービスは8月4日に開始予定ですが、発表会と同時にβ版が公開されています。料金は1時間のファイルが300円。8月3日までの間は、1ファイル最大7時間、1日合計10時間までという制限はあるものの、料金が一切かからずお試しでサービスを利用できるため、AutoMemoの購入を検討しているユーザーや、今後このサービスを使ってみようと考えているユーザーは、この機会にテキスト化の精度などをチェックしてみてもいいかもしれません。

sourcenext Junya Ishino
▲料金は1時間300円

sourcenext Junya Ishino
▲アップロードしたファイルも、AutoMemoで録音したデータと同じように扱える

ユーザーインターフェイスは至ってシンプル。専用のサイトにブラウザからアクセスして、ドラッグ&ドロップでテキスト変換したいファイルをアップロードするだけ。アップロードが終わったら、テキスト化したいファイルを選択して、「テキスト化を実行」ボタンをクリックすれば、作業は完了します。後は、テキスト化が終わるのを待つだけ。結果はAutoMemoアプリや、設定したメールに送られてきます。

sourcenext Junya Ishino
▲ブラウザにファイルをドラッグ&ドロップするだけと、操作が簡単

テキスト化に必要な時間は、実際の録音の1/3程度で、この点もAutoMemoとほぼ同じ。1時間程度、録音したファイルであれば、20分ほど待つ必要があります。どの程度の精度が出ているのかを試すため、筆者も実際に、ソースネクストの会見を録音したファイルをテキスト化してみました。会見の時間は1時間10分ほど。音声は、Xperia 1 IIにインストールしたアプリで録音したものです。

sourcenext Junya Ishino
▲Xperia 1 IIで録音したソースネクストの発表会をテキスト化してみた

Xperia 1 IIでは、録音したボイスレコーダーアプリのファイルが自動でGoogleドライブにアップロードされるように設定していたため、PCを開いたあとは、AutoMemoのサイトにアクセスして、ファイルを直接ドラッグ&ドロップしただけ。操作には一切迷うことがなく、簡単に利用できました。しばらく原稿を書きつつ、待つこと30分。メールが届き、AutoMemoアプリでテキストを読むことができるようになりました。

結果は以下の通り。発表会場は反響が大きく、声が聞き取りづらいこともあってか、少々残念な中身に。質疑応答時の自分の質問はそれなりに聞き取れていましたが、エコーが効いたマイク越しの声を変換するのは、なかなか難しいのかもしれません。「女性が多い歯医者さん」とは一体……。「人妻リモート会議」のようなパワーワードも爆誕していました(笑)。

sourcenext Junya Ishino

sourcenext Junya Ishino
▲会場内でのエコーが多く、音声品質がイマイチだったためか、意味が分からない文章が出来上がってしまった

一方で、筆者の先々週の連載を読み上げた際のテキスト化は、そこそこの精度が出ました。「低料金」が「低級霊」になっていたり、固有名詞の「UQでんき」が「有給電気」になっているなどの、オモシロテキストも何か所かありますが、このテキストだけを読んでも、ある程度内容はつかめます。一人で文字を読み上げたメモをテキスト化する際には、役に立ちそう。その意味では、手書きのメモの代わりに声を吹き込んでおくといったような用途に活用できそうです。

sourcenext Junya Ishino

sourcenext Junya Ishino
▲自分の原稿を読み上げたところ、精度は高く、内容もある程度文字だけで把握できる結果に

こちらは、まだ記事化していないインタビューのため、スクリーンショットで結果を載せることはできませんが、発表会のような大規模な会場での音声ではなく、1対1で話したインタビューは、ちょうど両者の中間程度の結果になりました。自分だけで読み上げたときのように、大体の文意が分かるまではいきませんが、単語単語がきちんと認識されているため、後から頭出しする際や検索する際のデータとしては活用できそうです。

sourcenext Junya Ishino
▲テキスト化したデータは、キーワード検索に使えるため、ある程度の精度が出ていれば、使い道はある

もちろん、サービスはまだβ版の段階。本サービスに向けて、精度が上がっていく可能性もあるため、断言はできませんが、現時点では上記のような形で、録音した環境に応じて使い分けるといいかもしれません。個人的には、メモ代わりに自分の声を吹き込んで音声をテキスト化するのはアリ、発表会のプレゼンの文字起こしには使わないだろうという印象です。こうした用途を探る意味でも、β版をまずは使ってみることをお勧めします。


関連記事: