音声認識技術はまだ発展途上…「コミュニケーションAI」実現への道

非ネイティブに特化した英会話学習AIアプリの登場

2017年末、横浜市に拠点を構える企業・ちょいみらいが、アメリカンアクセントをトレーニングできる英会話学習AIアプリ「ELSA」をリリースした。同アプリは、英語の発音や会話が苦手な“英語難民”のサポートを目的に、米シリコンバレーで開発された製品だという。ちょいみらいは、ELSAについてリリースで次のように説明している。

<1日約10分3週間続けるだけで、英語の発音能力の40%改善が期待出来ます。その秘密は、「ELSA」が搭載している独自の人工知能にあります。世界各地から膨大な非ネイティブスピーカーの音声を抽出し、細かく分析。学習者の母国語を日本語に設定することで、日本人に特化したレッスンプランとフィードバックを提供してくれます。(中略)使い方は簡単。用意された文章や単語を、アプリに向かって発声すればいいだけ。間違っていた場合は、「ELSA」からエラーの指摘が色付けで入る仕組みです。(中略)発音チェックの速さと精密さが「ELSA」の持ち味です>(原文ママ)

一見、数ある英会話学習教材のひとつように思えなくもないが、よくよく考えてみると非常にユニークな特徴がある。それは、人工知能を学習させるために「非ネイティブスピーカーの音声」を収集・分析し、それらデータ的根拠を持って学習者を支援するという点だ。既存の英会話教材、もしくは英会話学習は、基準となるアクセントや発音方法がまず先にあり、それを学習者が“何となく真似”する形で行われるケースがほとんどだった。しかし、ELSAはまず、「どのような非ネイティブか」を先に分析し、細かく「基準=ネイティブ発音」に近づけていくというアプローチを採用している。

非ネイティブの認識精度が低い音声認識技術

このような非ネイティブに焦点をあてたデータの収集・分析は、音声認識技術の発展に大きな影響を与える可能性がある。例えば電気通信普及財団は、研究レポート「多様な環境におけるレアリソースの音声認識」の中で、グローバル化の影響で英語を母語としない人々による英語利用が一般化しつつあると前置きし、それら非母国語話者の音声認識精度が不十分だと指摘している。その理由については、以下のように専門見地から解説を加えている。

<非母国語の発話には、その発話者の母語による干渉が生じる。母語の干渉は、音素などに影響を与え、その特徴を変動させる。そのため、同一の言語であっても、発話者がもつ母語によって発話の音響的特徴に差が生じる。音声認識で使用される音響モデルの作成には、その言語を母語とする人が発話した音声を学習データとして利用するのが一般的である。ここで、ある言語について非母国語話者が音声認識を利用することを考えると、母語の干渉による音響的特徴の変動から、発話された音声の特徴と音響モデルがもつ特徴との間に差が生じる。この特徴の差が誤認識の原因となり、結果的に認識率の低下へと繋がる>(同財団の報告書「多様な環境におけるレアリソースの音声認識」より引用)

同財団は、非母国語話者の音声認識精度が低い理由のひとつとして、「非母語話者の音声データの不足」を挙げている。ディープラーニングなど、注目のAI技術は音声認識の分野に大きな前進をもたらしたが、精度向上のためには大量のデータが必要という前提がある。そのため、相対的に量が少ない非母語話者の認識精度が、高まらないまま残ってしまっていると分析している。もし仮にELSAのような非ネイティブ音声データの収集・学習が進めば、AIが抱える課題のひとつを克服していける道が開けるのではないだろうか。

少ないデータで精度を向上させる必要性…少数言語とAI

なお、電気通信普及財団のレポートでは、「低リソース(少ないデータ量)」で、AIの効率的な学習を行う方法についても提言している。非母国語話者を含む認識精度の向上には、非ネイティブ音声データに加え、それらのアプローチが重要になってくるはずだ。補足までに、会話とAIという領域において別の課題が浮上し始めているを紹介しよう。日本の通・翻訳団体の関係者のひとりは、AI Lab編集部の取材に対して次のように話す。

「AIアシスタントや機械翻訳の精度向上に注目が集まるなか、言語専門家の中で懸念され始めていることがあります。少数言語の問題です。企業では、習得者が多い言語を中心に音声認識技術を開発する傾向があります。一方、少数言語はデータも少ないですし、通・翻訳技術ともに、なかなか発展しない現状があります。スマートフォン、AIスピーカーなどの製品がグローバル規模で展開したとしても、それら少数言語は時代から取り残されてしまう可能性がある。少数言語にも、人類が築き上げてきた文化が色濃く反映されています。その保存や発展のために、いかにテクノロジーと合流させていくべきかというのが、言語専門家の中でひとつの課題となっています」

その他にも、会話とAIという領域には、周囲の騒音を除去し話者の話のみを抽出する技術、や、文章の音だけではなく意味を理解する技術の発展などが望まれている。解決が難しい課題ではあるが、人と会話でコミュニケーションを取る人工知能、人の文化を理解する人工知能を実現させるためには、避けては通れない道となっている。