自動音声認識(ASR)評価ツールについて



自動音声認識(ASR)評価ツールについて

自動音声認識(ASR)評価ツールを使うと、音声ファイルをバッチテストし、開発したスキルのASRの精度を測定できます。ASR評価ツールにより、テストサンプルのオーディオ発話をASRモデルに対して一括でテストし、期待される文字起こしを実際の文字起こしと比較することができます。ツールが生成する評価レポートには、各テスト発話の精度指標と合否結果が出力されるため、レポートをもとに精度の問題を解決できます。

ASRの詳細については、自動音声認識(ASR)とはを参照してください。

このページでは、Alexa開発者コンソールからASR評価ツールを使う方法と、ASR評価をプログラムで行う場合に利用可能なASR APIを紹介します。

ASR評価のメリット

スキルユーザーが期待する応答をAlexaから得られない場合、ASR評価ツールを使って音声認識の問題をトラブルシューティングし、スキルのパフォーマンスを改善できます。ASR評価ツールにより、スキルが認識を誤りがちな単語を特定しやすくなります。特定したら、これらの単語をサンプル発話やスロット値としてスキルモデルにマッピングし直すことで、認識精度が改善する可能性があります。

たとえば、コーヒー関連のスキルでユーザーがAlexaに「モカを注文して」と頼むことを想定しているのに、ASR評価ツールによってAlexaが時々「モカ」を「ミルク」と間違えて認識することがわかったとします。 この問題を解消するには、発話を対話モデルのインテントにマッピングします。こうすることで、スキル内でのAlexaの理解を改善できます。

ASR評価プロセスの概要

ASR評価ツールを実行し、スキルの音声認識精度と対話モデルを改善するには、次のプロセスを実行します。

  1. テストに使用する録音済みの発話のアノテーションセットを作成します。
  2. ASR評価ツールを実行します。
  3. ASR評価の結果をもとに、スキルの精度と対話モデルを改善します。

ASR API

開発者コンソールではなく、プログラムからアノテーションセットを作成してASR評価ツールを実行する場合、Amazonが提供するAPIを使用することもできます。

利用可能なASR API

次のASR APIを使用できます。

API呼び出しフロー

次のプロセスは、APIを呼び出してASR評価を実行するまでの順序を示しています。

  1. オーディオカタログを作成します。
    1. カタログの作成を呼び出してカタログを新規作成します。
    2. カタログのスキルへの関連付けを呼び出して、新規作成したカタログを評価するスキルに関連付けます。
    3. カタログコンテンツのアップロードを呼び出して、カタログのアップロードを作成します。
    4. オーディオファイルの.zipファイルをカタログコンテンツのアップロードで返されたS3のURLにアップロードします。オーディオファイルの形式は、.mp3、.wav、.aiff、.oggのいずれかである必要があります。
    5. アップロードが完了したら、アップロードの完了を呼び出します。
    6. アップロードのGETリクエストで、アップロードの取り込みステータスを取得します。
  2. アノテーションセットを作成します。
    1. アノテーションセット作成APIを呼び出して、空のアノテーションセットを作成します。
    2. アノテーションセットのアノテーション更新APIを呼び出して、アップロードしたオーディオ発話をアノテーションセットに追加します。
  3. ASR評価の実行APIを呼び出して、ASR評価を実行します。
  4. ASR評価ステータスの取得APIASR評価結果の取得APIを呼び出して、ASR評価ステータスと結果を返します。

ASR APIエラーコード

すべてのASR APIに適用されるエラーのリファレンスについては、自動音声認識(ASR)APIエラーリファレンスを参照してください。