「家庭用AIアシスタント」の音声認識技術の現在

「アマゾン・エコー」や「グーグル・ホーム」など、家庭用AIアシスタントが相次いで市場に登場し、世界的に普及する兆候を見せ始めている。

その普及の実態は、正確にはどうなっているのだろうか。2017年1月、音声経験分析を行うVoiceLabsが発表した「The 2017 Voice Report」には、家庭用AIアシスタントの販売台数の推移を示したグラフが掲載されている。それによれば、2015年に170万台だった販売台数は、2016年には650万台に。2017年には、2450万台が出荷されると予想されている。累計販売デバイス数は、3300万台に達する見込みだ。

そもそも家庭用AIアシスタントとは何か。端的に言うならば「家庭におけるユーザーの支持や要求を把握・理解し、さまざまなタスクを処理してくれるIoT端末機器」と定義することができる。そのタスクには、音楽の再生、ショッピング、連動したスマートホーム関連IoT製品の操作(エアコンのオン・オフなど)、ニュースや書籍の代読、タクシーの手配など、ユーザーのあらゆる日常的な行動が含まれる。

スマートフォン端末ではすでに、似たような用途のAIアシスタントが数多く活用されて久しいが、その家庭用と考えていただければ分かりやすいかもしれない。家庭用AIアシスタントは、「家庭用IoT端末機器」「家庭向けデジタルアシスタント」、もしくはスピーカーの形をしていることが多いため「スピーカー型音声アシスタント」「家庭用スピーカー」と呼ばれることがあることも補足しておく。

家庭用AIアシスタントの技術の核「音声認識技術」

家庭用AIアシスタントの最も大きな特徴は、ユーザーの指示を音声で把握・理解し、その行動をサポートするという点にある。そのため技術的な中心要素のひとつに音声認識技術が挙げられる。そしてその質を支えているのが、マシンラーニングをはじめとする人工知能(AI)という構造がある。

2017年5月、マイクロソフトはアマゾン・エコーやグーグル・ホームに対抗すべく、「Invoke」の詳細を発表し、販売計画について明かしている。同機器には、同社が開発を進めてきた人工知能「Cortana」が搭載される予定だ。Cortanaの音声認識の精度を知る上では、以下のような資料が参考になるかもしれない。

Invokeの詳細発表から遡ること約7カ月前の2016年10月、マイクロソフトはブログで自社の音声認識技術の精度を発表したことがある。そこで、単語レベルでの誤認識率、つまり音声を間違って認識する率を5.9%まで引き下げることに成功したと明かしている。

なお誤認識率5.9%という数字は、人間の口述筆記と同じ水準であり、対人間との会話も滞りなく可能となる精度だそうだ。マイクロソフトの研究チームは、ニューラルネットやマシンラーニングの研究が前進してきたこと、またGPUなどコンピュータ部品の高速・高精度化を誤認識率低下の要因として挙げている。当然、CortanaやInvokeにも、それら成果は応用されていくはずである。

音声認識技術の課題

マイクロソフトなどをはじめ、家庭用AIアシスタントを手がける各企業の音声認識技術は、今後、人工知能技術の発展と並行して向上していくはずである。とはいえ現段階では、まだまだ課題も多いというのが現状のようだ。

例えば、課題のひとつにノイズへの対処がある。家庭用AIアシスタントが人間の音声を正確に聞き取ろうとすればするほど、周囲から聞こえるノイズも正確に読み取ってしまう。つまり、ノイズが少ない場所でしか、その真価を発揮できないという限界がある。

米国ではテレビから聞こえてくるニュースキャスターの声をアマゾン・エコーが誤認識し、頼んでもいない商品がユーザーの家に大量に送られるという珍事が起きたこともあるそうだ。また前述のマイクロソフトの誤認識率の精度も、あくまで研究用の“最適な環境”で実現されたものであり、ノイズの多い環境などでは性能が下回るという補足説明がなされている。

他の課題としては、ニュアンスや方言などへの対処もある。同じ言語といえども、人間の話し方は千差万別。家庭用AIアシスタントには、それらを上手く聞き分け、正確にタスクを処理することが望まれている。こちらについては、ニュアンスや方言を集めたデータセットをどう用意するかという問題も解決されていく必要がある。

音声認識技術が変えるライフスタイル

さまざまな課題が克服され、人間の会話を完璧に聞き取ることができる音声認識技術、そしてそれを搭載した家庭用AIアシスタントが普及すれば、人々の消費行動は大幅に変化してくかもしれない。

まず、PCにわざわざ接続する手間は一切なくなっていくだろう。機械に話しかけるだけで、求めるものがほとんど手に入り、欲する行動が実現するようになるからだ。インターネットの普及により定着した「検索」という消費行動は、「テキスト」から「会話」へと一気にシフトチェンジする可能性がある。

そして、IoT端末との会話が「普通のこと」になれば、人間のライフスタイルやカルチャーにも大きな変容が訪れるかもしれない。話し相手となるIoT端末や家庭用ロボットに、ただの機械へのそれを超えた、特別な愛着を持つ人々も生まれてくるはずだ。SF世界のように、人間と機械が共生する未来――それが現実になる可能性がある。

いずれにせよ、家庭用AIアシスタントを取り巻いた市場での競争は、今後も熾烈になることだけは間違いない。日本では2017年5月に、NTTドコモが同市場に参入することが報じられた。また2016年10月に開催された「CEATEC」では、シャープがロボット型のホームアシスタント製品の構想を発表しているが、当時、2017年前半を目標に製品化に取り組むという計画が明かされていた。世界、そして日本において、家庭用AIアシスタント、そして音声認識技術がどう発展するか。今後に注目したい。