AVSの設計
概要
Alexa Voice Service(AVS)は、Amazonのインテリジェントなクラウドサービスで、接続された、マイクやスピーカーを搭載した製品を音声で制御することが可能になります。AVSを統合することで、ユーザーはすぐにAlexaのコア機能と日々拡充されているサードパーティスキルのライブラリにアクセスできます。
Alexaユーザーは馴染みやすい使用感を期待しています。下の設計と実装のガイダンスに従い、AVS統合がユーザーの期待を満たすものになるようにしてください。
- アプリケーション例: 製品のフォームファクターを特定し、ユーザーがAlexaとどう対話するかを選択します。
- ASRプロファイルの選択: 実装に最適な自動音声認識(ASR)プロファイルを決定します。
- ハードウェアとオーディオのアルゴリズム: 音声認識の最適化に使用するテクニックを確認します。
- サードパーティリソース: ハードウェアやソフトウェアのソリューションを提供しているプロバイダーについて学びます。
AVSを統合する際には、必ず利用規約と機能設計ガイドを参照してください。
一般的なアプリケーションのサンプル
Alexaによって、ユーザーは最も自然な方法、つまり自らの声を使って、製品を操作することができます。TVのリモコンなどのハンドヘルド端末、スマートウォッチなどのウェアラブル端末、ハンズフリー操作が可能なスピーカーやインターフォンの開発などでは、AVSによってユーザーによるAlexaとの対話を可能にすることができます。
Alexaとは、タッチと音声の2つの方法で対話できます。タッチで開始される対話では、Amazon Fire TVリモコンやAmazon Tapなどの物理的なコントロールを必要とします。音声で開始される対話では、Amazon Echoなどを介して「Alexa」というウェイクワードを使用します。
以下の表は、push-to-talk(プッシュトゥトーク)、tap-to-talk(タップトゥトーク)、および音声で起動する製品の一般的なアプリケーションのサンプルを示しています。
![]() |
![]() |
![]() |
|
アプリケーション | Push-to-talk | Tap-to-talk | 音声起動 (ウェイクワード) |
リモコン | ● | ||
ウェアラブル | ● | ● | |
モバイルアプリ | ● | ● | ● |
ポータブルスピーカー | ● | ● | |
ホームオーディオ | ● | ● | |
インターフォン | ● | ● | |
スマートホーム/電化製品 | ● | ● | ● |
自動車 | ● | ● | |
パソコン | ● | ● | |
スマートテレビ/セットトップボックス | ● |
自動音声認識プロファイル
Alexaは自動音声認識(ASR)と自然言語理解(NLU)を組み合わせて使用し、ユーザーの音声を認識して正確に応答します。ASRはユーザーの音声をテキストに変換し、NLUはそのテキストをAlexaが動作するためのインテントに変換します。このプロセスの最後に、Alexaは製品に対して、楽曲再生などのアクションを実行するよう指示するディレクティブを送信します。
AVSでは、異なる製品、フォームファクター、音響環境、ユースケースに合わせて調整された3つのASRプロファイルのうち、1つを選択できます。プロファイルのパラメーターは、各Recognizeイベントのペイロードに含まれ、Alexaに送信されます。また、ユーザー音声の終わりがクライアント、クラウドのどちらで判断されるかを指定するためにも使用されます(ユーザー音声の終わりを判断する方法は、スピーチエンドポイント検出と呼ばれます)。
以下の表は、通常、どのASRプロファイルがさまざまなユーザー対話に関連付けられるかを示しています。
Push-to-talk | Tap-to-talk | 音声起動(ウェイクワード) | ||
聞き取り範囲 | 2.5フィート以内 | 5フィート以内 | 5フィート以内 | 20フィート以内 |
ASRプロファイル | "CLOSE_TALK" | "NEAR_FIELD" | "NEAR_FIELD" | "FAR_FIELD" |
スピーチエンドポイント検出 | クライアント | クラウド | クラウド | クラウド |
ハードウェアとオーディオのアルゴリズム
ハードウェアのコンフィギュレーションとオーディオ処理のアルゴリズムを正しく設定することにより、ウェイクワード「Alexa」に反応する製品の聞き取り精度が高まります。これは、製品が楽曲再生や、騒がしい環境での使用を目的として設計されている場合には特に当てはまります。従来のノイズリダクションアルゴリズムやオートゲインコントロールといった、オーディオ入力のノンリニア処理は、どのような種類のものであっても使用すべきではありません。
以下の表は、一般的なコンフィギュレーションを示しています。
Push-to-talk | Tap-to-talk | 音声起動(ウェイクワード) | ||
聞き取り範囲 | 2.5フィート以内 | 5フィート以内 | 5フィート以内 | 20フィート以内 |
ウェイクワード | ● | ● | ||
マイクの数 | 1 | 1 | 1以上 | 2以上 |
AEC | ● | ● | ||
ビームフォーミング | 2つ以上のマイク | 2つ以上のマイク |
アコースティックエコーキャンセレーション(AEC)
音声認識システムでは、「アコースティックエコー」とは、スピーカーから発信された信号が、その近くにあるマイクによって拾われることを指します。アコースティックエコーは、ユーザーの声と同時にマイクからキャプチャされるため、ASRエンジンへの干渉の元となります。AECの目的は、マイクの信号からアコースティックエコーコンポーネントを除去し、ASRエンジンがユーザーの声をはっきりと理解できるようにすることです。AECアルゴリズムは、スピーカーコンポーネントとマイクコンポーネントの間のアコースティックエコーの方向(およびそのエコー)を適切に見積もることにより機能します。見積もられたアコースティックエコーはマイクの信号から除去され、マイクの信号をほぼエコーのない状態にします。理想的には、AEC処理されたマイクの信号にはアコースティックエコーはありません。
ただし、システムがノンリニアである場合や、室内の音響状態によっては、すべてのエコーが除去されるわけではありません。ASRには、リニアAECのみを適用する必要があります。エコーをさらに除去するノンリニア処理は使用しないでください。また、コンプレッションやリミッティングといった出力パス上のノンリニア処理は、いかなる種類であってもAECに送信する基準オーディオの一部としてのみ使用してください。
ビームフォーミング
ビームフォーミングは、望む方向からのユーザー音声を拡大し、他の方向からの干渉を抑える、複数のマイク配列用の信号処理テクニックです。これらのアルゴリズムにより、SN比を高め、望む方向からのオーディオ信号内の残響を減らすことで、音声認識システムの精度を向上させることができます。ASRでは、リニア処理バージョンのビームフォーミングのみを使用してください。
サードパーティリソース*
以下は、ウェイクワードとオーディオ処理のソリューションを提供しているサードパーティプロバイダーです。メーカーの製品情報を参照し、ニーズを満たすことを確認してください。
ウェイクワード | AEC | ビームフォーミング | |
Sensory: TrulyHandsFree音声コントロール |
● |
||
KITT.AI: Snowboy Hotword Detection |
● |
||
Conexant: AudioSmart™ 2-Mic Development Kit for Amazon AVSwith Sensory Wake Word |
● |
● |
|
Conexant: AudioSmart™ 4-Mic Development Kit for Amazon AVSwith Sensory Wake Word |
● |
● |
● |
免責事項
Amazonは、いかなるサードパーティソリューションあるいは、かかるサードパーティにより提供されるいかなるコンテンツまたは部材についても、保証または証明、推薦するものではなく、いかなる形での責任も負いません。リンクされているいかなるウェブサイトを訪問することを決断された場合でも、ユーザーの自己責任で訪問し、ユーザーの責任においてかかるサイト上の利用規約、プライバシーポリシー、および関連する法的通知を確認してください。