Alexa Skills Kit    >    自動音声認識 (ASR)

自動音声認識 (ASR)とは?

自動音声認識(ASR)は、会話の音声をテキストに変換するテクノロジーです。つまり、Amazon Alexa のような音声テクノロジーで「アレクサ、外はどんな感じ?」といった私たちの問いかけに答えられるようにする第一歩となります。

音声テクノロジーでは、ASR を使って会話の音声を検出し、それを単語として認識します。ASR はすべての音声エクスペリエンスの基礎となるもので、これによってコンピューターがついにコミュニケーションのもっとも自然な形、つまり「話し言葉」で私たちの言いたいことを理解できるようになりました。

ASR: A Foundation for Voice Technology

コンピューターにどう理解するかを教える

ASR の登場以前、コンピューターにとって、話し言葉は単なる高低のある音声の録音にすぎませんでしたが、 ASR により、コンピューターは音の波形パターンを検出して、特定の言語の音と照合し、最終的にどの単語が話されたのかを特定できるようになりました。人とコンピューターとの他の対話方法と同じように、音声サービスも初めは基本的な機能だけで、ロボット化されたコールセンターのように、理解できる単語の限られたリスト(たとえば、「『はい』か『いいえ』で答えてください」など)を使うだけでしたが、

現在では飛躍的な成長を遂げています。人の話し方、特定の言語、アクセントでさえも理解できます。「うーん」という言葉をいくつか聞けば、つぶやきや独り言を言っているだけだと聞き分けることや、人に口答えをすることまでできるのです。

ASR が音声テクノロジーとの対話を実現する 3 つの方法を紹介します。

Teaching Computers to Understand
1.応答が速いこと

自然な会話では、数ミリ秒以内に応答する必要があります。現在の音声テクノロジーはクラウドコンピューティングを利用して、録音した音声をテキストに変換して、コンピューターがすぐに応答できるようにしています。

2.学習に基づいた判断ができること

どの言語にも同音異義語がたくさんあります。コンピューターはどうやって、同じ「いどう」という音で、場所を動く「移動」、職務が変わる「異動」、一致しないことの「異同」を区別できるのでしょうか。 最先端のテクノロジーは、バックグラウンドで統計をいくつか使うことで、ユーザーが本当に言いたい単語を判断しています。

3.音声をよりスマートに進化させること

ASR は、音声ユーザーインターフェースの第一歩にすぎません。ASR に、自然言語理解を始めとしたさまざまなテクノロジーを組み合わせることで、Alexa はユーザーの言ったことの文脈も理解できるようになります。「かねおくれたのむ」という言葉 1 つとっても、「金送れ頼む」であれば送金を依頼していますし、「金をくれた飲む」であればお金をもらったのでお酒を飲むという意味かもしれません。

line-break

音声で次の世代の可能性を拓く

Powering the Next Revolution in Voice

何十年もの間、ASR は静かに進歩を続けていました。外国語を学ぶ人のための教育や、音を聞き取りづらい人のためのアクセシビリティツール、ハンズフリーコンピューティングといった目的に使用されてきたのです。

今日、ASR は人とコンピューターとの会話を実現してくれます。タイマーを設定したり、試合の結果を確認したり、電話をかけたりするだけのために、マウスやキーボード、タッチスクリーン UI の使い方を覚える必要はありません。普段どおりに話しかけるだけでよいのです。

これにより、さまざまな可能性が広がります。さて、コンピューターが私たちの言葉を理解できるようになった今、次に何を教えられるでしょうか? 音声を使って、どんな魔法のような体験を作り出せるでしょうか? それは、これからの私たち次第です。

関連するトピック: Alexa デザインガイド

今すぐ音声の開発を始める

音声開発に ASR を利用するにはどうすればよいでしょうか。 Alexa Skills Kit (ASK)を使って画期的な音声エクスペリエンスを作成することから始めましょう。ASK を使うことで、Amazon が Alexa スキルの音声デザインの分野で培ってきた知識や草分け的な研究の成果を利用することができます。自然言語理解や音声認識のバックグラウンドがなくても、Alexa を使ったすばらしい音声エクスペリエンスを作成できます。ASK は、すばやく簡単に Alexa の開発ができる各種セルフサービスの API、ツール、ドキュメント、コードサンプルのコレクションです。

今すぐ音声開発を始めて、未来のユーザーエクスペリエンスを創造しましょう。