ASRの更新によるカスタムスキルの修正

Jason Kwan Jun 06, 2022

自動音声認識（ASR）は、会話の音声をテキストに変換するテクノロジーです。ASRの認識を上げるために、日本語の認識のルールに変更が入ります。現在のASRによる認識とこれからの認識を両方対応するには、スキルの修正が必要です。

このブログでは、ASRの更新による変更箇所と、対応作業のご紹介をします。

英語で発音される単語、日本語で発音される数字とイニシャリズム（アルファベットによる略語）が含まれる対話モデルの修正が必要です。次の設定をご確認ください：

呼び出し名、サンプル発話、カスタムスロットの値の英語で発音される文字は、小文字のアルファベットに出力されることがあります。単語によってはカタカナで出力されることもあります。

例：

単語	発話形式	従来の形式	新しい形式
1	ワン	ワン	one, ワン
backspace	バックスペース	バックスペース	backspace, バックスペース

呼び出し名、サンプル発話、カスタムスロットの値の数字は漢字に変換されます。

例：

単語	発話形式	従来の形式	新しい形式
1	イチ	1, 一	一
7	ナナ	7, 七	七

呼び出し名、サンプル発話、カスタムスロットの値のイニシャリズムは、１文字の後にピリオドと半角スペースが挿入されます。全ての文字は小文字にする必要があります。

例：

単語	発話形式	従来の形式	新しい形式
FM	エフエム	fm/f m	f. m.
NBA	エヌビーエー	nba, n b a	n. b. a.

スキルに英単語、イニシャリズムや数字が含まれている場合、新しいASRの形式に置き換えるだけではなく、従来のASRの形式に対応する発話や値を残す必要があります。それぞれの変更箇所の詳細は、以下をご確認ください。

新しい対話モデルの保存とビルドをしたら、実際に声に出してテストする必要があります。開発者コンソールのテストシミュレータで、テキスト入力でテストする時とマイク入力でテストする時の文字列が異なりますので、必ず声でのテストを行ってください。

表記ルールの詳細については、次の技術資料を参照してください。