Alexa 5周年: 振り返りと今後の展望

Rohit Prasad Nov 05, 2019
Share:
News
Blog_Header_Post_Img

※このブログはAlexa at Five: Looking Back, Looking Forwardの翻訳です。

また、Alexa誕生5周年については、AmazonのDay Oneブログで詳しくお読みいただけます。

Amazon Echoの発売から今月でめでたく5年になりますが、私は先日リスボンで行われたWeb Summitでの講演で、Alexaのこれまでの歩みとこれからの方向性について話させて頂きました。

「地球上で最もユーザーを大切にする企業を目指す」、これがAmazonのミッションです。このミッションを念頭に、2014年11月6日人工知能(AI)を使ってお客様の日常を革命的に便利にするという希望を持った多分野で構成される少人数チームによりAmazon Echoが世に送り出されました。Amazon Echoはスター・トレックに出てくるコンピューターをインスピレーションにしています。 

音声に対応した便利なアンビエントコンピューティングの世界へEchoがいざなうまで、ユーザーはパソコンや携帯電話を使って検索を行い、いくつも表示される検索結果の数々から質問の回答や接続したいサービスの選択をせざるを得ませんでした。携帯電話のアプリストアにおいては「目的に合うアプリが存在する」程度の便宜は提供するもののユーザーの認知負荷は増える一方でした。 

この人間とマシンインタラクションのパラダイムを塗り替えたのがAlexaを搭載したEchoでした。これまでの認知負荷をユーザーからAIに移すことにより、各種サービスとのインタラクション方法、ウェブでの情報検索方法、スマート機器の操作や人と人とのつながり方に大変革を起こしたのです。

Alexaの基本コンポーネントの機能強化

Echoの発売当初からユーザーに魔法のような体験をさせる為にも、次に挙げる4つの基本AIタスクをAlexaがスムーズにこなす必要がありました。

  1. ウェイクワードの検出: デバイスで「アレクサ」というキーワードを検出し、AIを起動させる。
  2. 自動音声認識(ASR): ウェイクワードを検出したら、Amazon Web Services(AWS)クラウドに送られた音声を語句に変換する。 
  3. 自然言語理解(NLU): 認識された語句の意味を抽出し、Alexaがユーザーのリクエストに適切なアクションで応えられるようにする。
  4. テキスト読み上げ(TTS): ユーザーからのリクエストに対するAlexaのテキスト応答を発話に変換する。

 

過去5年間で、私たちはこうした基本コンポーネントの向上に取り組み続けてきました。その結果、ウェイクワードとASRの認識ミスは、4分の1にまで減りました。NLUのミスも、NLUで処理する発話の範囲やAlexaが対応アクションの種類が急増したにもかかわらず、3分の1にまで減りました。音声評価にMUSHRA法を用いた聴取者調査でも、Alexaの発話と人間の発話を比較した違いに見られる自然さが80%も縮まったことがわかっています。

AlexaのAIに関する全体的な戦略としては、AWSから得られる大規模データや計算資源に、機械学習(ML)、特に深層学習(ディープラーニング)を応用することが挙げられますが、先ほどご紹介したパフォーマンスの向上は、深層学習を応用した次のような幅広いテーマの研究成果によるものです。

  • 半教師あり学習:ラベル付きデータとラベルなしデータを組み合わせることでMLシステムの向上を図ります。
  • 能動学習:より効果的なサンプルをMLシステムで選択して手作業によるラベル付けに回すという学習戦略です。
  • 大規模な分散学習:MLベースのモデル学習を並列に行い、大規模データを使って効率良く学習できるようにします。
  • 状況依存型モデリング:リクエストの出どころであるデバイスの種類、ユーザーが使用または有効化しているスキル過去のリクエストなど、幅広い情報を使って精度の向上を図ります。

ユーザーへのインパクト

2014年11月のEcho発売からこれまで、ユーザーとAlexaとの対話はゼロから毎週数十億回にまで増えました。今やユーザーは15種類の言語を使い、80カ国以上でAlexaと対話しています。 

Alexa Voice ServiceAlexa Skills Kitを通じ、私たちはAIを大衆のものにしました。こうしたセルフサービスのAPIとツールキットを使うことで、開発者はAlexaをデバイスに組み込んでカスタムスキルを作成できます。Alexaは現在、数百種類ものデバイスで利用できます。Alexaを使ってコントロールできるスマートホーム製品は、9,500を超えるブランド(メーカー)から85,000以上の製品が販売されており、サードパーティ開発者が開発したカスタムスキルの数も10万を上回っています。 

継続中の会話型AIの研究

Alexaの成功が必ずしも会話型AIの問題をすべて解決するとは限りません。今後の可能性を考えると、表面をけずったに過ぎません。私たちは現在も懸命にAlexaで次のことを実現できるよう取り組んでいます。

1.セルフラーニングの促進

Amazonの科学者やエンジニアは、「教師あり学習」への依存度を下げることでAlexaが従来より短時間で賢く応答できるようにしています。(例:手作業でラベル付けされたデータを基にMLモデルを構築する等)。数か月ほど前、私たちは教師-生徒型の深層学習を採用100万時間分のラベルなし音声を使って音声認識システムに学習させたことを発表しました。このテクノロジーは現在英語(英国)で導入済みですが、Alexaの音声認識機能の精度が向上したことから、残り14種類の言語への導入に向けても作業を進めています。

私たちは今年、人間の注釈者が介入せずに、AlexaがASRやNLUのエラーを自動的に修正できるような新しい自己学習方式を導入しました。この新たなアプローチでは、ユーザーがAlexaの応答を遮るといった不満を表す兆候を基に、満足が得られなかった可能性のあるAlexaとの対話をMLで検出します。そして、ユーザーによるリクエストの言い換えから学習したグラフ理論モデルを使って、失敗したリクエストを同じ意味の応答可能な形式に自動的に修正します。 

たとえば、「Sirius XM Chillを聞きたい」は失敗していましたが、Alexaはユーザーによる言い換えから「Sirius XM Chillを聞きたい」が「Sirius Channel 53を聞きたい」と同じ意味だと学習し、失敗していたフレーズを自動で訂正します。

このように、裏で学習しつつユーザーに時折フィードバック(例:「それは~という意味ですか?」)を投げかけることで、Alexaは今では毎週何百万というエラーを自力で修正しています。 

2.より自然な会話

サードパーティスキルが初めて世に出はじめた2015年ごろ、ユーザーは「アレクサ、東京タクシーに『空港まで乗せて』と言って」のようにスキルを名前で呼び出す必要がありました。ですが、カスタムスキルの数が万の単位になると、スキルを音声で検出してその名前を覚えることが難しくなってきます。これはAlexaならではの課題です。 

この課題を解決すべく、深層学習に基づくスキルの無指名対話を検討し、スキルを円滑に検出して呼び出すことを目指しています。スキルが何千とあっても、ユーザーは「アレクサ、空港まで乗せて」とだけリクエストすれば、Alexaはユーザーのコンテキスト情報と対話履歴を基に、呼び出すスキルを決定します。 

ほかにも、Alexaとの対話をもっと自然にする手立てとして、「アレクサ、照明を消して音楽をかけて」といった結合形のリクエストにも対応できるようにしてきました。この実現のためには、さまざまなイノベーションの中でも、意味解析部分の学習効率を上げる技法が必要でした。意味解析においては、文の構造と各部の意味をどちらも分析する必要があるからです。

Alexaの応答もますます自然になっています。今年から、テキスト読み上げにニューラルネットワークを使い始めました。おかげで、もっと自然に聞こえる発話になったばかりか、ニュースをニュースキャスター風に読んだり、曲名をDJのように紹介したり、俳優のサミュエル・L・ジャクソンなど有名人の声を使ったりと、AlexaのTTSシステムをほかの発話スタイルに合わせることもはるかに簡単になりました。

3.もっと物知りに

Alexaは日々、聞かれたことのない膨大な数の質問に答えており、ユーザーがAlexaの質問応答力への信頼を高めていることがうかがわれます。

Alexaの知識ベースの中核である知識グラフは、億単位の数の事実をコード化しており、ここ5年で20倍に成長しました。ですが、Alexaの情報源はほかにも何百とあります。 

そして今、ユーザーがAlexaに知識を授けることができるオンラインインターフェースであるAlexa Answersを通じて、Alexaの学習をユーザーが手助けしています。利用者を限ったベータテスト期間と公開後の1カ月間で、AlexaユーザーはAlexa Answersに何十万という新たな回答を追加し、数え切れないほど繰り返し共有されています。

4. よりコンテクストを意識し、プロアクティブに

Alexaは現在、Hunchesと呼ばれるオプション機能を使用することで、ユーザーとスマートホームとの対話を学習し、照明、ロック、スイッチ、プラグなどのデバイスがユーザーの望む状態にないと判断された場合に操作を提案することができます。さらに、私たちはHunchesの守備範囲を広げて、Alexaの定型アクション機能も取り込もうとしています。たとえば、目覚ましを朝6時にセットし、目覚めてすぐ天気を尋ねることを毎日繰り返す場合、Alexaは平日朝6時に目覚ましをセットし、アラームを止めたらすぐ天気予報を流す定型アクションを作ってはどうかと提案します。

今年の前半にはAlexa Guardを投入しました。これは、家を空ける際に作動させるタイプの機能です。Echoデバイスが煙警報音や一酸化炭素警報音、またはガラスの割れる音を検出すると、Alexa Guardがユーザーに通知を送信します。Guardの音響事象検知モデルはマルチタスク学習を採用しており、モデルの学習に必要なラベル付きデータの量を削減するとともに、モデルをよりコンパクトにしています。

この秋、Alexa Guardの拡張版のプレビューを始める予定です。拡張版は、足音、話し声、咳、ドアの閉まる音など、日常生活に関連する音を新たに認識します。また、ユーザーはGuardを加えた定型アクションを作成できます。たとえば、営業時間中にGuardを自動で作動させることができます。

5.もっと会話らしく

ユーザーはAlexaに、「アレクサ、デューク・エリントンをかけて」や「アレクサ、天気は?」といったワンショットリクエストを超えた対応を求めています。  今年のAlexaでは、人間が会話でしているようにコンテキストをリクエスト間で受け渡す能力が向上しています。 

たとえば、Alexaユーザーが「『アダムズ・ファミリー』が東京シネマで上映されるのはいつ?」と聞いたのに続き、「その近くにおいしいメキシコ料理屋はある?」と聞いてきた場合、Alexaは「その」が東京シネマのことだと認識する必要があります。この分野における私たちの最近の成果が、計算言語学会による会話型AIのための自然言語処理ワークショップで、最高論文賞2本のうちの1本に選ばれました。中心となるアイデアは、表出したエンティティを結び付けてモデル化するのに、自己注意機構を使う遷移ネットワークを採用したことです。

しかし、複雑なタスクをこなすためには、対話を続けながらユーザーの隠れた目的を予測する必要があり、これは今なお難題です。たとえば、夜のお出かけを計画するのにAlexaを使うユーザーは、映画、劇場近くのレストラン、ライドシェアサービスの検索に複数のスキルを使って、時間と場所を調整しなければなりません。

私たちは現在、Alexa Conversationsという深層学習ベースの新しいテクノロジーをテストしており、一部のスキル開発者がこれを使って最小限の労力で質の高いマルチターンエクスペリエンスを実現しています。開発者がAlexa Conversationsにサンプルダイアログ一式を与えると、シミュレーターがデータ量を100倍に増やします。Alexa Conversationsは、超最先端の深層学習モデルの学習にそのデータを使って対話アクションを予測します。ルールを事前に手作業で用意する必要はありません。

私たちはre:MARSで、Alexa Conversationsテクノロジーと新しいスキル遷移アルゴリズムを使った新しい夜のお出かけ計画体験のデモを行い、複数のスキルを使った会話による計画タスクを自動で取り仕切りました。 

ほかにも、ホームセキュリティ製品であるRing ビデオ ドアベルの新しいコンシェルジェ機能にAlexa Conversationsテクノロジーを組み込んでいる最中です。このテクノロジーがあれば、ドアベルがユーザーに成り代わってちょっとした会話を行い、伝言を受け取ったり、配達員に荷物の置き場所を指示したりできます。こうした使い勝手をユーザーにお届けできるよう、私たちは誠意奮闘中です。

この先5年の展望?

ユーザーがAlexaと毎週何億回と対話することや、開発者が10万を超えるスキルを独自に開発することなどは、5年前には想像もできないことでした。これほどまでに使っていただいていることは、私たち開発チームにとって大きな刺激となります。さらに使いやすさを高めて、ユーザーにいっそう喜んでもらえる新しいエクスペリエンスを生み出すべく、さらにペースを上げて新機能開発に取り組んでいます。 

 

 1. Alexa Everywhere

Echoシリーズのデバイスや、Alexaの他社製品との統合により、Alexaは世界中の何百万という家庭の一部となってきました。Alexaは家庭における日常の利便性に革命を起こしたわけですが、私たちはこの利便性を外出中のユーザーにもお届けしたいと考えています。Echo BudsにEcho Auto、そしてEcho LoopやEcho FramesのDay 1 Editionsにより、Alexa-on-the-goが私たちの暮らしをいっそうシンプルにできることを既に示しています。 

持ち運びが便利になるにつれて、インターネット接続が低速だったり失われたりした場合のリスクが高まります。スマートホームハブ内蔵のEchoデバイスは、Alexaのクラウドベースモデルに頼れない場合でも、ある程度の発話処理ができるようになっています。これは、現在進行中の重要な研究分野の1つです。たとえば、Alexaの機械学習モデルを圧縮してデバイス上で実行できるようにするための新たな技法を模索しています。

新しい外出用ハードウェアは、Alexaを持ち運びやすくする唯一の手立てではありません。新たなGuest Connectエクスペリエンスでは、AlexaアカウントにどのEchoデバイス(自分所有のデバイスでなくても)にログインして、音楽をかけたりニュースを聞いたりすることができます。

 

 2.AIのさらなる高みへ

Alexaがユーザーや開発者からほかに類を見ないほど選ばれているおかげで、AI研究の新たな課題が見えてきています。なかでも、認知的負荷をユーザーからAIへさらにシフトさせるためには、予測(ユーザーのインテントの抽出)から文脈推論へと、AIのさらなる高みへ登らなければなりません。

目標の1つは、質の異なるスキルを円滑に結び付けて、ユーザーにとっての利便性を高めることです。Alexa Conversationsと夜のお出かけ体験はこの方向性の第一歩であり、複数のサービスやスキルを使う複雑なタスクをこなします。 

各種AIで同様の相互運用性を実現することを目指して、私たちはVoice Interoperability Initiativeというコンソーシアムの設立に参画しました。Voice Interoperability Initiativeでは、何十社ものテクノロジー企業が力を合わせ、相互運用性のある複数の音声サービスを1台のデバイスで提供できるようにすることを通じて、ユーザーの選択肢を広げようとしています。

Alexaも、ユーザーのコンテキストや履歴に関するさらに多くの情報を考慮できるようになって、判断精度が上がることでしょう。たとえば、ユーザーがホテルの一室でAlexa搭載デバイスに「アレクサ、プールの営業時間は?」と尋ねたら、Alexaは一般開放のプールではなくホテルのプールの営業時間を答える必要があります。 

先にご紹介した自己学習技法を使ってユーザーからの直接学習に成功し、私たちの意気は大いに上がっています。これは重要な分野の1つであり、私たちはこれからも、Alexaへのいらだちの声のような新しい兆候を取り込み、直接/間接を問わずフィードバックから学んで、Alexaの精度をより高めていきます。 

 

 3. Alexa for Everyone

AlexaのようなAIシステムが社会機構に欠かせない一部となるにつれ、AIにおけるバイアスの緩和や公平性に注目する必要性がいっそう高まっていくことでしょう。私たちの目標は、すべてのユーザーにとってAlexaが同じようにうまく機能することです。私たちは研究を独自に進めるほかにも、全米科学財団と協力し、AIにおける公平性の研究に資金を3年にわたって拠出しています。

私たちは、会話型のAIシステムをだれもが作れる未来を夢見ています。私たちはAlexa Skills KitとAlexa Voice Serviceを提供し、開発者がAlexaのAIを使ってイノベーションを簡単に起こせるようにしました。Alexa Skill Blueprintsを使えば、エンドユーザーでも数分もあればパーソナライズされたスキルを作れます。

私たちはまた、Alexa Prizeコンテストからも刺激を受けています。このコンテストは、大学生に本格的な最新研究を披露してもらうことを通じて、会話型AIを大衆のものにしています。大学生チームは、「最近の出来事や一般的な話題を巡って幅広く、つじつまの合った愛想の良い会話を、人間相手に20分間継続できるソーシャルボット」を作るという会話型AIの究極の難題に取り組みます。 

このコンテストの第3回が現在行われており、大学生チームは間違いなくこれからも限界を押し広げていくことでしょう。ユーモアのセンスはAIの課題として最難関の1つですが、学生たちはひょっとするとそれぞれのソーシャルロボットに独特のユーモアセンスを授けることができるかもしれません。 

私たちは開発者や学術研究者と手を組んで、会話型AIの分野で長足の進歩を遂げてきました。しかし、達成すべき事柄はまだいくらでもあります。未来の予測は難しいのですが、1つ確信を持って言えることとして、Alexaチームはこれからもユーザーのために新機能を生み続けていくことでしょう。

Rohit PrasadはAlexa AI担当VP兼主席科学者です。

Alexa science