自動音声認識(ASR)のアノテーションセットを作成する
自動音声認識(ASR)評価ツールを使うと、音声ファイルをバッチテストし、開発したスキルのASRの精度を測定できます。ASR評価ツールにより、テストサンプルのオーディオ発話をASRモデルに対して一括でテストし、期待される文字起こしを実際の文字起こしと比較することができます。ツールが生成する評価レポートには、各テスト発話の精度指標と合否結果が出力されるため、レポートをもとに精度の問題を解決できます。
このページでは、ASRテストで使用するサンプルオーディオ発話のアノテーションセットを作成する方法について説明します。
前提条件
ASRテストのアノテーションセットを作成するには、次のものが必要です。
- Amazon開発者アカウント。必要に応じてdeveloper.amazon.comを参照し、アカウントを作成してください。
- テスト用サンプル発話のセット。これらの発話には、次の2つのオプションがあります。
- 発話を含む録音済みのオーディオファイルを1つの.zipファイルにまとめて圧縮します。
- ノートパソコンから直接発話を録音してアノテーションファイルを作成します。
- (オプション)アノテーションセットの発話の文字起こしを含むCSVまたはJSONファイル。アノテーションセットの各発話に期待される文字起こしを手動で追加する代わりに、この文字起こしCSVファイルをアップロードできます。
発話の.zipファイルには次の要件があります。
- 圧縮した.zipファイルが10 MBを超えることはできません。
- オーディオファイルは以下のいずかの形式にしてください。
- mp3
- wav
- aiff
- ogg
- .zipファイルに含めることのできるファイル数は1000個までです。
- 各オーディオファイルの最大サイズは3 MBです。
- 各オーディオのファイル名にASCII文字以外の文字を含めることはできません。
オーディオファイルのアノテーションセットを作成する
サンプル発話のセットにASRテストを行う前に、テスト用の録音済みオーディオ発話のセットを用意する必要があります。テストの実行に使用する発話セットを「アノテーションセット」と呼びます。録音済み発話の.zipファイルをアップロードすることも、アノテーションセット作成の一環として発話を録音することもできます。オーディオファイルをAWS S3バケットにアップロードしたことがある場合は、期待される発話の文字起こしと重みを含むCSVファイルをアップロードしてアノテーションセットを作成することもできます。
オーディオファイルのアノテーションセットを作成するには
- Amazon開発者アカウントの認証情報を使い、Alexa開発者コンソールにログインします。
- 開発者コンソールでビルドタブに移動します。
- 左のナビゲーションでカスタムの下の、アノテーションセットをクリックし、NLU評価ページを表示します。
-
NLU評価ページでASR評価タブをクリックし、ASRアノテーションセットページに移動します。
アノテーションセットタブ - +アノテーションセットボタンをクリックして、アノテーションセットを新規作成します。
-
プロンプトで、アノテーションセットに名前を付けます。
ページを更新して、新しく名前を付けたアノテーションセットを表示します。
空のアノテーションセット -
次のいずれかのオプションを使用して、アノテーションセットに発話を追加します。
- 開発者コンソールから直接発話を録音します。アノテーションセットのオーディオ発話を録音するを参照してください。
- 録音済みの発話の.zipファイルをアップロードします。録音済みオーディオ発話のセットをアップロードするを参照してください。
- 発話ファイルのパス、文字起こしの期待結果、アップロード済みのオーディオファイルセットに対する発話の重みを含む.csvファイルまたはJSONファイルをアップロードします。アノテーションセットに期待される文字起こし結果のCSVまたはJSONファイルをアップロードするを参照してください。
- 左上のアノテーションセットを保存ボタンをクリックしてアノテーションセットを保存します。
アノテーションセットに発話を追加し終えたら、発話メタデータを編集できます。発話のメタデータを編集するを参照してください。
アノテーションセットの発話を録音する
アノテーションセットの発話を録音するには
- アノテーションセットのページで、長押しで録音しますボタンを長押しします。
- 発話します。
- 録音を終了したらボタンを離します。
発話を録音したら、発話のメタデータを編集できます。発話のメタデータを編集するを参照してください。
録音済みオーディオ発話のセットをアップロードする
録音済みのオーディオ発話セットを圧縮した.zipファイルがある場合は、発話を一括でアップロードできます。
録音済みオーディオ発話のセットをアップロードするには
-
アノテーションセットのページで、アップロードボタンをクリックします。
ファイルナビゲーターウィンドウが開きます。
- ファイルナビゲーターでファイルの場所に移動し、発話を含む.zipファイルを選択します。
-
開くをクリックしてファイルをアップロードします。
.zipファイルがAWS S3バケットにアップロードされます。
発話の追加やアップロードが終了したら、個々の発話のメタデータを編集できます。発話のメタデータを編集するを参照してください。
アノテーションセットに期待される文字起こし結果のCSVまたはJSONファイルをアップロードする
オーディオファイルのアノテーションセットをAWS S3バケットにアップロード済みの場合、それらのファイルのメタデータを一括で編集できます。アノテーションセットの発話ごとに期待される文字起こしを手動で追加しなくても済むように、すべての文字起こしをCSVまたはJSONファイルとしてアノテーションセットに一括アップロードできます。
アノテーションセットに期待される文字起こし結果のCSVまたはJSONファイルをアップロードするには
- 次の3つのフィールドを含むファイルを作成します。
- filePathInUpload – アップロードするzipファイル内の発話ファイルパスを指定します。たとえば、zipファイルに「folder」という名前のフォルダが含まれ、そのフォルダに「audio.mp3」というオーディオファイルがあるとします。その場合のファイルパスは、folder/audio.mp3となります。ディレクトリを連結するには、スラッシュ(/)を使用します。
- expectedTranscription – 発話に期待される文字起こし結果を指定します。
- evaluationWeight – 評価での発話の重要性を重みとして割り当てます。
次の画像は、有効な列見出しを含むCSVファイルの例です。
サンプルCSVファイル 次の画像は、有効な列見出しを含むJSONファイルの例です。
サンプルJSONファイル -
アノテーションセットページの右側にある一括編集ボタンをクリックし、アップロードバッチテスト(JSON、CSV)プロンプトを開きます。
-
CSVファイルまたはJSONファイルに移動し、開くをクリックします。
-
アップロードバッチテストプロンプトで、送信をクリックします。
文字起こしの期待結果フィールドと重みフィールドに、CSVの値が自動で設定されます。
アップロードされたCSVファイル
発話のメタデータを編集する
アノテーションセットを作成したら、各発話のメタデータを編集してASR評価結果の精度を改善することができます。
発話のメタデータを編集するには
-
アノテーションセットのページで、次のタスクを実行できます。
- 発話を聞く。
- 文字起こしの期待結果を追加する。
- ASR評価に対する発話の重みを割り当てる。
-
発話を聞くには、発話の横にあるスピーカーアイコンをクリックします。
発話を聞く -
期待される文字起こし結果を追加するには、発話の期待される文字起こし結果フィールドをクリックして、実際の発話の文字起こしテキストを入力します。
-
発話に重みを割り当てるには、発話の重みドロップダウンリストから数字を選択します。
発話の重みは、発話の重要性を表します。たとえば、あるスキルで「コーヒー」という単語をユーザーにとって重要だと想定している場合、「コーヒー」を含む発話に高い重みを割り当てます。 重みの範囲は1~10で指定し、10が最も高い重みを表します。
これで、ASR評価を実行できます。自動音声認識(ASR)評価を実行するを参照してください。