siri

 

Appleは今回のWWDC21で、Siriの進化で1つのブレークスルーを起こしました。それは、これまで音声アシスタントが抱えていた「声の送信や記録の問題」を解決しながら、機能性も向上させる画期的なものでした。

音声アシスタントの多くは、デバイスのマイクで聞き取った音声を手元で分析し、音の要素をサーバに送信、テキストへ組み替えて、指示を理解する仕組み。つまり音声そのものではないにしろ、解析可能な声をサーバに全て送っているわけです。

siri

そこに対しての反感は根強く、いくつかの調査ではいずれも半数がプライバシーの懸念を音声アシスタントに寄せていました。

それと同時に、「オフラインでは使えない」という別の問題もありました。そんなに大きなデータを送るわけではないですが、通信の状態が悪いと、反応速度が著しく悪化し、いつまでたっても答えてくれない、なんてことも少なくありません。

Appleはこうした問題がハードウェア上で解決できる仕掛けを数年前から仕込んでいたのです。

iPhone上で完結するオンデバイス処理

siri

WWDC21におけるSiriのアップデートの目玉は、「オンデバイス処理」でした。これまでサーバへ送ってテキスト化していた音声をサーバには送らずiPhone上で処理し、指示として理解しようという取り組み。このオンデバイス処理をするために使っている言語の音声認識モデルをデバイス内にダウンロードし、聞き取った音声をこれと照合してテキストに変換する仕組みです。

機内モードに切り替えてインターネットを遮断してもSiriに話しかければ答えてくれますし、加えてタイマーの設定やカレンダーの表示、作成、アプリを開くといったiPhone上で完結する処理についてもこなしてくれます。

A12 Bionic以上のチップを搭載するiPhone / iPadで利用できるので、iPhone XSやiPhone XR、iPhone SEも含まれます。

とはいえ、例えばメッセージを送信する、Wikipediaやスポーツの結果と言った情報を調べる場合は、音声認識部分は端末内で済ませますが、その指示を実行するためにネットワークが必要になるため、オフラインでは使えない機能、となります。

siri

無制限に音声テキスト入力

Siriへの指示内容をオンデバイスで解析する仕組みのために、音声認識モデルを端末に持たせるという話をしました。同じモデルを使っている操作に、音声によるテキスト入力があります。

筆者はiPhoneやApple Watch、iPadで声によるテキスト入力を頻繁に使っています。特にメッセージ、Slack、Messengerといったコミュニケーションツールでは、そのほとんどを音声で入力した文字で返しています。しかし、メッセージ系アプリでしか使っていない理由もまた存在しています。

これまでは音声をサーバに送って認識結果を返してもらう仕組みだったため、1分間でタイムアウトする仕様でした。そのため、今書いている原稿のように、140文字を超えるような長い文章は、音声入力ではなくキーボードで入力していました。

iOS 15では、この音声テキスト入力についてもiPhoneの中で処理する仕組みを備えています。そのため、これまでの1分間でタイムアウトという制限がなくなり、ずっと音声入力の待ち受け状態を続けることができます。

そのため、肘に手をつきながら1段落をしゃべり、しばらく黙って考えて、再び話し出すといった、音声入力による原稿書きがより簡単に実現できるようになるわけです。こうなると、必ずしもiPadやMacで原稿を書く必要がなくなり、iPhoneであらかたの原稿をしゃべりながら仕上げられることになります。しかもインターネット環境を問わずにです。

siri

主語を引き継ぐ

今までのSiriのとんちんかんなところとして、文脈を引き継いでくれない、という点が挙げられます。

例えばスポーツ選手の名前を質問して、これに続けて所属チームや年齢等を調べようとする際、今までのSiriでは、質問する度に、選手の名前を言わなければなりませんでした。

Siriとしては「主語」を明確にしてくれなきゃ困る、という話かもしれませんが、使っているこちらとしては、主語をひたすら繰り返し言わなければならないのは滑稽だし、自然な会話とは言えません。

iOS 15のSiriではこの点が改善され、1つのセッションで続けて質問する際、主語を覚えていてくれるようになりました。そのため、主語を省略しても、一つ前の質問の主語を引き継いで答えてくれ、質問する側としてはより自然な会話で情報を取り出すことができるようになります。

Siriで共有

もう一つ、Siriを使っているとこれはかなり便利そうだと感じたのが共有機能です。iPhoneの画面で今見ているものをSiriがメッセージやメールで送信できるようになります。

例えば、Apple Musicで音楽を聴いているとき、いいな、と思った曲があるとします。そうしたときに「これを○○に送って」と言うだけで、○○さんにメッセージでリンクを送信できるのです。

サードパーティーアプリでも基本的には利用でき、楽曲、ビデオ、Webページなど、URLの情報があるもの、生成できるものは、リンクを送信してくれます。

もしURLを持っていないコンテンツの場合、スクリーンショットを送信してコンテンツを共有できます。とっさの待ち合わせで地図や経路を共有したり、見ていて参考になるレシピを見つけたり、画面を指で操作しなくても送信できて便利だと感じる場面が数多く思い浮かびました。

日本のSiriユーザーは損している

そうしたSiriの進化の中で、日本のユーザーが享受できていない、非常に重要な機能もあります。これはなぜか、iOS 15でも日本語対応が見送られました。

それは「ニューラルテキスト読み上げ」機能です。iOS 15ではスイス語、デンマーク語、ノルウェー語、フィンランド語を新たにサポートしましたが、日本語は対応しませんでした。

ニューラルテキスト読み上げは、これまでの音声合成とは全く異なる方法でSiriに発話させる仕組みです。これまでの合成音声は、声優が吹き込んだ細かい長さの録音をつなぎ合わせて会話を成立させているため、単語単位では自然に聞こえますが時折言葉のつながりが変に聞こえる部分が残ってしまいます。

Siriのニューラルテキスト読み上げは、細かい音のつなぎ合わせではなく、実際に人が喋る音をデバイスで作り出し、より自然に聞こえるようにする仕組み。こちらも機械学習処理の性能向上によって実現しています。

技術的な側面で日本語での対応が遅れている原因が明確にあるわけではないようですが、少なくともiOS 15発表時に、日本語のサポートはアナウンスされませんでした。このあたり、日本語を母語とするユーザーとしては、早い対応を期待します。