スキルでさまざまな音声を使用する



スキルでさまざまな音声を使用する

スキルで使用できる音声はAlexaだけではありません。Amazon Pollyの音声で提供されている、さまざまな種類の男性や女性の声を追加できます。ご自身のブランド用に声優の音声を用意している場合は、そちらの吹き替えも使用できます。さらに、音声クリップやSpeechconを追加することで製品価値を高め、スキルをより楽しく、ユーザーを引き付けるものにできます。

別の音声を使用する

Pollyの音声で、さまざまな男性や女性の声を使用できます。ストーリーでいろいろな声が欲しい場合や、スキルで男性の声が必要な場合に音声を追加します。Pollyの音声を使用する場合も、インターフェースのメイン音声は常にAlexaです。これは余程の理由がない限り変更しないでください。Pollyの音声を組み込む方法について詳しくは、スキルにAmazon Pollyの音声を使用するためのユーザーエクスペリエンスガイドラインを参照してください。

スキルにほかのタイプの音声を追加する

音声エクスペリエンスの価値と魅力を高める方法の1つとして、短い効果音などの音声ファイルを含める方法があります。音声ファイルを使用すると、Alexaと音声ファイルの切り替えで特定の状況を表したり、Alexaをフル音声と差し替えたりできます。エクスペリエンスに音声を含める方法はいろいろあり、個別の開発事例に応じてさまざまな設定が可能です。

スキルに音声ファイルを含める際には、次の点に注意してください。

  • 質問に音声を使用する場合、適切な再プロンプトを別に含める必要があります。再プロンプトを質問に関連付けて、必要なときに再生できるようにしてください。
  • スキルがユーザーに話しかけるターンでユーザーからの返答が想定される場合、各ターンの長さは90秒以下にしてください。

ショートフォームオーディオを使用する

90秒以下の音声はショートフォームオーディオとして扱われます。ショートフォームオーディオを流してもAlexaとの会話は続いたままです。つまり、ユーザーは「アレクサ」と呼びかけてスキルを再度呼び出す必要はありません。オーディオを流した後もユーザーとの会話を続けたい場合は、ショートフォームオーディオを使用します。

  • ファイルタイプ:.mp3
  • 仕様: 16000 Hz/ビットレート(48 kbps)
  • 長さ: 最大240秒

ショートフォームオーディオを使用する場合の詳細については、音声合成マークアップ言語(SSML)のリファレンスを参照してください。

ロングフォームオーディオを使用する

ポッドキャストのようなオーディオベースのスキルの場合、ロングフォームオーディオを使用してください。240秒を超える録音音声はロングフォームオーディオとして扱われます。オーディオの再生が始まった時点でスキルは終了しますが、ユーザーは呼び出し名を使わずにオーディオを操作できます。たとえば、「アレクサ、次」という具合です。 もう一度スキルとやり取りする場合は、「アレクサ」の後に呼び出し名を続けてスキルを呼び出す必要があります。

ユーザーとのやり取りがオーディオ操作だけのスキルの場合は、ロングフォームオーディオを使用してください。再生リストにオーディオファイルを追加して、連続再生を行うプレイリストのような機能も実現できます。

  • ファイルタイプ:.acc .mp4 .mp3 .hls .pls .m3u
  • 仕様: ビットレート16~384kbps
  • 長さ: 無制限

ロングフォームオーディオの詳細については、Audio Streaming in Alexa Skills(英語)AudioPlayerインターフェースのリファレンスを参照してください。

Speechconを使用する

Speechconとは、特定のイベントを意味したり、その他の情報をユーザーに伝えたりする、特徴的かつ特別な単語またはフレーズです。たとえば、アクションが正常に完了したことを知らせる言葉などです。Speechconを使用することで、スキルが生き生きとし、説得力のある会話でユーザーとつながることができます。スキルでSpeechconを使用する方法の詳細については、Speechconリファレンスを参照してください。

音声インタースティシャルを使用する

音声インタースティシャルは、フローの2つの領域をつなげるために再生される音声ファイルです。これには、イントロとアウトロのほか、移行時間といった領域が含まれます。インタースティシャルを使用することで、音風景の変化をユーザーに合図し、次に向かう音声を示すことができます。

先頭に戻る