形成しつつあるホームアシスタント市場

■今年はAI対話がリビングに?

こんにちは。アドバンスト・メディア 森脇です。
音声認識に携わって早17年。ここ数年の音声対話の発達はホントにスゴイなぁと感じます。
海の向こうでは茶筒か消臭剤の様なルックスのアマゾン エコーとグーグル ホームを中心に、新しいホームアシスタントの市場を着々と形成しつつあります。

残念ながら日本語でのサービスはまだ始まっていません。それどころかアマゾンエコーは 「明日の7時にアラームセットして」というと、アメリカ時間の7時でアラームセットしてくれます。そう。日本で使うときは時差を鑑みてアラームをセットする必要すらあります。

そもそもアマゾン エコーは電波の関係で日本で電源入れたら怒られます。当然、日本市場にも近い内にアマゾン エコーとグーグル ホームは投入されるでしょう。すでにスマートフォンではグーグルの日本語音声検索はかなり良いですし、アマゾンもスマホアプリでは日本語で音声検索が出来る様になっています。

当然、黒船エコー/ホームが襲来したら日本勢も静観している訳にはいきませんよね。ただ、アマゾンやグーグルの様に巨大なサービスが一体化になってないので結構苦戦するのでしょうね。日本だとハードウェアメーカーとサービスベンダーが協業するのは必要でしょうね。

ハードウェアメーカーはSONYやシャープ等がすぐに思いつきますが、サービスベンダーって。。楽天、アスクル、ヨドバシ?楽天以外は業界特化だと限定的なので、この際、他業種が繋がるTポイントカード連合で海外勢に挑むのも良いのでは?と思います。

■音声ホームアシスタントはいつも「スイッチとの闘い」〜音声ホームアシスタントの黎明?

私が初めて”家の中で使う音声対話”を意識したのは「ドラえコン」でした。「ドラえコン」・・そう。ドラえもんの形をしたテレビ用の音声コントロールリモコンです。
2000年頃だったかな。当時6〜7千円くらいだったと思います。

音声でチャンネルを変えられたり、音量を変えられたりできました。 他にも意外に多機能で楽しめた記憶があります。
しかし、自分の声を登録しなければならず、認識精度も?だったので、リモコンのボタン押した方が早くね?と思ってしまうのでした。
音声対話は何時の時代も「スイッチとの闘い」なんです。 「テレビを1チャンネルに変えて」と言うより1のボタンを押す方が早いですから、”声で操作する理由”がないとダメなんです。

「ドラえコン」の声で操作する理由は、”楽しさ”と”少しの便利さ”です。 この価値が6〜7千円の価値なのかどうかは微妙ですが。。
そしてその進化はアマゾン エコー、グーグル ホームによって見る事が出来るわけですね。 日本ではスマホと連動し様々な家電や電力、施錠等のコントロールを行うマルチリモコン:グラモ社のiRemoconに見る事ができます。

■「良い耳」〜音声ホームアシスタントにとって地味だけど重要な技術

音声対話で地味に重要な技術ってなんでしょう。そう。音声集音技術です。
外見からはあまり気になりませんが、とても重要です。
音が悪いと音声認識もできません。規定以下(スレッショルドレベル以下)の音声は無いものとされます。なので非常に重要です。

前途のドラエコンはマイクが1つです。携帯電話が普及してから複数のマイクを搭載し、ノイズキャンセル、エコーキャンセルを駆使して話者の声だけを抽出する技術が発達しました。
iPhoneもマイクは3つあります。Pepper、Naoは頭部に4つ、アマゾンエコーは8つ、エコードットは7つ。しかしグーグルホームにはマイクが2つしかありません。

音が上手く取れれば、次は音響処理です。声以外のノイズ、スピーカーから回り込む機器自身の音(エコー)をどうにか削減して必要な発話だけを得る事になります。

カーナビやテレカンで使うスピーカーフォンは、随分前からこの問題に取り組んできたので、昔みたいに、「ピー!!」というマイクのハウリング音を聞く事は随分すくなくなったと思いませんか?iPhoneのスピーカーフォンでの通話が上手く出来るのもこのノイズ・エコーキャンセルが高精度だからですね。
音声ホームアシスタントもノイズ・エコーキャンセルの性能が上がり、高性能なマルチマイクで構成された「良い耳」を持つことでやっと音声対話への一歩が踏み出せるのです。

■「だれに向かって話しをしてるのか」認識の話し

人は話す時、誰に向かって話しているか?をどうやって理解してるのでしょうか。 人は目が見えるので、こちらを向いてしゃべってれば判りますよね。
では機械はどうしているのか。

コマンド(命令)と解釈する=コマンドキーワードが音声認識された

と決めます。

「オーケー グーグル、○○をしらべて」
「アレクサ、○○を○○して」
「ヘイ シリ、○○○」

こうして文頭に普段使わない様な”特別な固有名詞”を付けて、その後コマンドをつなげる という規則で対話を制御します。

この対話方法は、古くは「2001年宇宙の旅」、「スタートレック」をはじめ80年代のアメリカのTVドラマ/映画「ナイトライダー」でもおなじみですね。
「ナイトライダー」はKITTという究極の音声対話カーに対し
「キット、ここから30キロ圏内の○○を探してくれ」
という様に、名前+コマンドで対話をしていました。もう30年も前の話しです。

この仕組みの裏では、
常時音声を集音し、、コマンドキーワードだけをターゲットに、小さい音声認識処理を常時実行し、コマンドキーワードが見つかった時だけ、クラウド上の巨大な音声対話サーバーで瞬時に処理を行う、という事を行っています。

ところで、”常時音声を集音し”って気になりませんか? 見方を変えれば盗聴されてるかも・・という事ですよね。
2015年に音声コマンド機能を持つサムソンのスマートテレビが、音声データを常時収集している事が話題になりました。 常時音声収集=盗聴になりかねないので、留意した方が良いかもしれませんね。

また、今年の1月にアメリカで、テレビニュースの「アレクサ 私にドールハウスを注文して」という音声を誤認識し、アマゾンにドールハウスの注文が殺到した、、という事件がありましたね。
音声注文の停止は可能ですが、やはり期待するのは声紋でのコントロールですね。 今後、機会があれば声紋についても触れたいと思います。

新しいテクノロジーは様々な想定外の事件を経て成熟して行きます。
音声ホームアシスタントのこうした状況を見ていると、海外では間違いなく市場を形成する事になるだろうと想像します。
その飛び火は近い内に、日本にも必ず何かの形で来ます。 どんな形でどんな企業が牽引役を担うのか。楽しみでなりません。
個人的にはアマゾンのユーザーですが、やっぱ画面見て選ぶ楽しみを選んでしまうかも。

MORE CONTENTS

AI活用で成功事例を生み出せる組織の作り方

データサイエンティスト 中澤公貴

2017.04.14

”とっつきやすいAI”と”とっつきにくいAI”

株式会社アドバンスト・メディア 森脇健

2017.05.15