Sponsored Contents

aiの最新記事

Image credit:

なぜ賢くないのか。「スマートスピーカーの基本」を4つの疑問から考える(西田宗千佳)

意外なほど「大人の事情」も敵になる

西田宗千佳
2017年10月20日, 午前11:05 in ai
597 シェア
213
182
0
202

連載

注目記事

Amazon Echo Dot速攻レビュー。スキル試行は最初のスマホ的な楽しさ、日本語周りは意外な弱点が

Amazon Echo Dot速攻レビュー。スキル試行は最初のスマホ的な楽しさ、日本語周りは意外な弱点が

View
iPhone Xのナゾを実機でズバっと解決 カメラ機能はすべての面でワンランク上

iPhone Xのナゾを実機でズバっと解決 カメラ機能はすべての面でワンランク上

View

人気記事

スマホ版『どうぶつの森 ポケットキャンプ』は11月22日配信開始。基本無料の時短アイテム課金🍃

スマホ版『どうぶつの森 ポケットキャンプ』は11月22日配信開始。基本無料の時短アイテム課金🍃

View
遂に来た大本命「Amazon Echo」をじっくりレビュー。豊富なスキルが強みだが意外な弱点も見えてきた

遂に来た大本命「Amazon Echo」をじっくりレビュー。豊富なスキルが強みだが意外な弱点も見えてきた

View


スマートスピーカーの市場が盛り上がってきた。ご存じの通り、音声によって操作を行う機器なので、機能のコアは「音声アシスタント」そのものにある。音声アシスタントを使う機器には色々と技術的な特徴があるのだが、その辺はなかなかに見えにくいものだ。今回は、音声アシスタントを軸にした技術がどういう特性を持っているのか、その辺を4つの点から解説してみたいと思う。

■疑問その1:声は常に記録されているのか?

A:コマンドワードを言わない限り記録されない

アメリカでこんな事件があった。

2016年12月、米アーカンソー州の警察当局は、Amazonに対し、殺人容疑者が所有するAmazon Echoの音声データを提供するよう令状を出した。家にEchoがあったなら、そこから情報が得られるのではないか......という発想からである。

Amazonはこれに応えていない。「法的に正当な根拠がない限り、顧客の情報は提供できない」というのが理由だ。真っ当な対応だが、とはいえ、もう少し現実的な話もある。提供しようにも、Amazonにはたいした情報がないのである。

Echoに代表されるスマートスピーカーは、利用者の声をマイクで拾って反応する。音声認識はクラウドで行っており、だから常に「声を記録し、ネットの向こうに送っている」ようにも思える。

だがそうではない。

スマートスピーカーでは「コマンドワード」を使う。Googleなら「OK Google」であり、LINEなら「Clova」であり、Amazonなら「Alexa」、マイクロソフトが「Cortanaさん」、アップルが「Hey,Siri」になるが、これを行ったのちの言葉が「命令」として有効になる。

こうした構造である理由は主に2つある。一つは、「ここからが命令である」ことを明確にし、認識率を高めること。そしてもう一つは、機械が記録する音声が「どこからどこまでか」を明確にすることである。要は、「コマンドワードを話してからの命令しか記録も認識もしていない」わけだ。

先ほどのアメリカでのAmazonの例も、コマンドワードの先しかネットには送られていないので、「殺人がコマンドワードを話した後に行われた、もしくは関連することが行われた」という前提でなければ、Amazonには情報が残っていないのである。

スマートスピーカーには必ず「マイクのミュートボタン」が用意されている。これは、スマートスピーカーが一切外部の音を認識しないよう、明示的に「今は聞くな」と示すために用意されているものだ。

逆にいえば、こうしたルールはメーカーとユーザーの間の「信頼関係」で成り立つ。ユーザーとの信頼関係を無視すれば、常に「盗聴状態」にすることも不可能ではない。とはいえ、そうしたことは通常の企業にとって、ビジネス価値の破壊につながるので、行われることはない。

ただし、機器のハッキングやなんらかの不具合によって、「意図せず記録されてしまう」場合はあり得る。先日もこんなニュースが流れた。(すでに不具合は解消済みであるというが......)ハッキングや不具合で「盗聴」される可能性はスマホやPCにもあるので、スマートスピーカー独自の問題とはいえない。だが、「信頼できるか否か」が重要であることには変わりない。

疑問その2:コマンドワードは変えられないのか?

A:諸事情あってコマンドワードは固定

スマートスピーカーではコマンドワードが重要だが、どうにもなじみがなかったり、思い入れが難しい言葉ばかりなのが気になる。あのドラマに出てきたあのコンピュータの名前や、あのアニメに出てきたあのキャラの名前、もしくは飼っていたペットの名前などにできればいいのに......と思う人は多いはず。

結論からいえば、これはけっこう難しい。

すでに述べたように、スマートスピーカーでは、コマンドワード以前の言葉を認識しない。逆にいえば、コマンドワードは「絶対確実に認識する」こと、「コマンドワードの認識だけはネットに依存しない」ことが必須条件になるのだ。

好きなキーワードを設定できるようにするには、スマートスピーカーなどの中だけで即座に、好きなキーワードに反応できるような認知系が必要になってくる。将来的には可能だが、今はそれが難しいため、徹底的に学習を重ねた特定のワードのみを仕込んで、ローカルで即座に確実に反応するように工夫する必要がある。だから、コマンドワードは「特定の言葉」なのである。

また、コマンドワードは、日常出てくる言葉では「誤爆」が問題になる。「言いにくくはないが絶妙に日常会話には出てきにくい」言葉でないと、実際には使いづらい。「コンピュータ」とか「Amazon」とかを使うと、そういう話題を話すたびに誤爆することになる。

疑問その3:好きなキャラの声にできないの?

A:意外なほど「大人の事情」が敵になる

スマートスピーカーからの応答は、基本的に音声合成もしくは録音した音声で行われる。そこで誰もが思うのが、「声を変えられないのか」ということ。あのキャラ、あの声優の声にできれば、万難を廃して買う......という人は多いだろう。

だが、これもなかなか難しい。

スマートスピーカー製品に関わる企業の人々に幾人かに聞いてみたが、答えは皆「ノー」だった。

理由は技術的なものではない。もちろん、キャラの声を自由に合成するのはまだハードルの高い技術だが、けっしてできないことではない。

問題は、「キャラや声優さんに寄せると、発音可能な内容の自由度が下がる」ことだ。

キャラクター商品や芸能人の関わる製品には「監修」がつきものだ。彼らにとって、キャラクターや芸能人本人のイメージは商品そのものであり、商品価値とバッティングするようなあり方は許されない。その厳しさ・ユルさはまちまちだが、必ず監修作業が必須になることに違いはない。ここでいう「監修」とは、単に本人に言わせたくない言葉(わいせつな言葉など)だけを指すのではない。本人のイメージと乖離する言葉ばかりを話すことで、ファンが幻滅する可能性も含む。だから、演出も重要な要素だ。

だが、音声合成を使ったスマートスピーカーの場合、決まったフレーズだけを話すとは限らない。実際のところ、使い方が定まっていないと「監修」しようがない......という部分もある。NGワードを設けていくこともできるが、そうすると、スマートスピーカーや音声アシスタントの機能に制限をかけることにもつながる。

「声優さんの声を使ったサービス」はけっこうあるが、そのほとんどは「決まったことを喋るもの」である。そうすることで、演出と監修を生かした製品作りができる。音声アシスタント的な要素を持ち、キャラをいかした製品としては、過去にソニーモバイルが「SAO・アスナバージョンのXperia Ear」を出したことがある。だがこれも、Xperia Earの音声対応の範囲が限定されており、監修をしっかり通しても商品性にはマイナス要素がなかったから実現している。

結局、音声アシスタントのキャラは「自分たちで責任がもてるものを作る」のがベスト......という結論に、各社は至るのである。

もちろん将来、「キャラの特性を把握し、常にそこから離れずに演技できるAI」が開発できるようになれば、事情は変わるだろう。


疑問その4:なんで賢くないのか?

A:音声を「認識」はできるが、文脈を読むのはまだ苦手。シナリオに依存する部分が大きい

スマートスピーカーを使うとすぐに感じるのは、「意外と認識率は高い」一方で「きちんと答えてくれるキーワードは少ない」ということ。これももちろん理由がある。

今の音声アシスタントは、まず音声を聞き取り、それを「テキスト」に変換した上で、テキストの内容から「やるべきことを見つけ出す」というプロセスを経て動く。このうち、音声認識からテキストに変換する部分については、すでにかなりのレベルに達している。日本語ではまだ拙い部分があるものの、英語では驚くほどの精度に達している。

一方で、認識した文章の解釈能力については、まだまだ進歩の途中である。もっとも有効なのは、「できること」=コマンドの辞書を参照し、そのコマンドが含まれていたら実行する、というアプローチである。
 現状、いわゆる「気の利いた返答」は、ほぼ全てが「シナリオとして用意されたもの」である。そういう反応を地道に追加し、時には時事ネタを入れて刷新していくのも、音声アシスタントを提供する企業の腕の見せどころである。とはいえ、シナリオやキーワード辞書として、どんなに大量のフレーズを用意したところで、人間が日々発する言葉のバリエーションに比べれば、たかが知れたものである。だから、シナリオから離れるととたんに、音声アシスタントは「おバカ」に見える。

とはいえ、日々コマンドのリストは更新されるし、「この言葉はこのコマンドと同じ意味である」「こういう言い回しはこういうコマンドのことである」といった情報が、大量の用例から学習された上で反映されていく。なのでこの点も、長く使われて学習が進めば、精度が上がっていくことになる。英語と日本語での使い勝手の差は、現在はここにある、といっていい。

なので、現在のスマートスピーカーで1年後・5年後の姿を推し量るのは危険である。どのくらい進化するかは、用例をたくさん集めて処理できる=たくさんのユーザーが集まることに依存するので、巨大なクラウド企業であればあるほど有利である......という図式が成立するのが、世知辛いところではある。

597 シェア
213
182
0
202

Sponsored Contents