音声エクスペリエンスデザインの基礎

音声エクスペリエンスは、基本的な人間の会話に基づく、ユーザーとシステムの間の双方向の対話です。人間が効果的に会話をするには、話者同士がメンタルモデルを共有し、互いに目標、質問、意図を伝える必要があります。音声エクスペリエンスが人間の会話を利用できるようになればなるほど、システムの使い方をユーザーに教える必要は少なくなります。

ユーザーとシステム間の音声エクスペリエンスをデザインする場合、デザイナーの役割は、ユーザーのニーズやユーザージャーニーを掘り下げ、エクスペリエンス全体の流れを示すストーリーボードを作成して、これらの会話をマッピングすることです。デザインフェーズで単独でスキルを開発する場合でも、開発者チームと連携しながらデザイナーとして働く場合でも、このようなデザインを繰り返すことが、ユーザーが満足する魅力的なエクスペリエンスの作成に役立ちます。

音声エクスペリエンスのデザインプロセス

音声エクスペリエンスのデザインプロセスには、音声エクスペリエンスのアイデアの概念化、ユーザージャーニーの作成、スキルの人格のデザイン、ストーリーボードの作成、デザインのプロトタイプ作成、デザインのテスト、改善のための反復処理など、いくつかのフェーズが含まれます。

アイデアの概念化

音声エクスペリエンスの強みがユーザーを惹きつけます。音声ユーザーインターフェース(VUI)の強みを以下に示します。

  • 使いやすさ - ユーザーはもともと、仲間との対話で音声コミュニケーションを使うことに慣れています。対話の方法は身についており、文章の形成、情報の要求、簡単な質問への回答など、基本的な対話の枠組みや要素を教える必要はありません。
  • ナビゲーションが不要 - 音声を使用すると、階層化された情報の迅速な処理が可能になります。音声コマンドを組み合わせると、ユーザーは必要な情報を効率よく取得できます。優れた音声インターフェースデザインには、コンテンツへのアクセス方法がいくつも用意されており、柔軟に対応できます。
  • ユーザーのニーズに適応 - 優れた音声インターフェースデザインは、情報アーキテクチャがユーザーの目に触れないようになっていて、特定のユーザーや事例はもちろん、新しい製品機能にも柔軟に適応できます。
  • マルチタスク処理の有効化 - 音声エクスペリエンスは、マルチタスク処理を容易にします。遠隔インターフェースにより、ユーザーは目や手を離せなくてもタスクを実行できます。


また、ユーザーが求めているのは日常生活に付加価値をもたらすスキルです。Alexaスキルを概念化する際、以下のようなことを考えてみるとよいでしょう。

  • 作成しているAlexaスキルはユーザーにとってどのような価値があるか?
  • スキルを使用したユーザーがレビューを書くとしたら、どのようなことを書いてほしいか?
  • このスキルが解決するのはどのような問題か?

ユーザージャーニーの作成

ユーザージャーニーは、開発者が提供する製品とユーザー間の対話と、その中でユーザーが完了する目標で構成されます。

その意味をもう少し深く考えてみましょう。

対話とは、ユーザーが製品を使用するステップです。ウェブサイトではハイパーリンクのクリック、モバイルデバイスではさまざまなタップとスワイプ、Alexaの場合はユーザーの発話です。

目標は、ユーザーが製品を使用して達成しようとしている内容です。ほとんどの場合、ユーザーはこれらの目標をシンプルな方法でスムーズに、短時間で達成しようとします。

ユーザージャーニーを作成するときは、この形式に従う必要があります。

Journey Template

これらのユーザージャーニーは、フロー図とは異なります。この図は常に、1つの目標から次の目標へと進み、分岐することはありません。重要なことは、可能性のあるすべてのパスを示すことではなく、ユーザーを目標に導く理想的なパスを示すことです。

スキルの人格のデザイン

Alexaスキルはもともと、ユーザーが話しかけてスキルが応答する双方向のダイアログです。ユーザーとスキルが協力して目標を達成します。ここでは、ダイアログでのスキル側の応答について見てみましょう。ただし、今すぐダイアログの作成に進むのではなく、少し離れたところからスキルの人格を明確にイメージする必要があります。この人格は、スキルの音声と視覚的アイデンティティの組み合わせです。スキルの人格は1つであるとユーザーが感じられるようにします。

この人格を構築するには、いくつかの簡単なステップがあります。

  1. レビューを書く - ユーザーがスキルの人格について書きそうなレビューを何件か書いてみて、そこから重要な単語をいくつか選び出します。
  2. 人格の特性を絞り込む - それらの重要な単語をさらに絞り込みます。ペルソナ(人格)にとって最も重要な単語を3つ選んでください。
  3. 人格を簡単に説明する - ペルソナに名前を付け、選択した3つの単語を使用して簡単な説明を記述します。
  4. サンプルダイアログを作成する - ユーザーとペルソナの簡単なダイアログを3種類作成します。


作業を始める前に、クイックリファレンスのスケッチファイルをダウンロードしてください。

ストーリーボードの作成

スキルをデザインする際には、ユーザーとAlexaの両方の観点から考慮すべきことがたくさんあります。
ユーザーについては、次の要素をデザインする必要があります。

  • ユーザージャーニー - ユーザーは前に何を実行していて、 次は何をしたいのか? ユーザーの最終的な目標は何か? ユーザーはどのようなコンテキストで対話しているか?
  • デバイスタイプ - ユーザーはどのデバイスを使用しているか?(Fire TV、 Echo Show、 Echo Dotなど)
  • ユーザー発話 - ユーザーはAlexaに何を話しかけているか?
  • タッチ入力 - ユーザーが行った画面操作はタップか、スワイプか?


Alexaについては、以下の応答をデザインする必要があります。

  • 音声応答 - Alexaは何を言うか? イアコンやBGMはあるか?
  • 視覚応答 - Alexaは画面に何を表示するか?


これらすべての要素を1つの構成要素に結合するには、ストーリーボードと呼ばれるデザイン手法を使用します。ストーリーボードは、ユーザージャーニー、画面、シナリオで構成されるデザイン構成要素で、ユーザーによるスキルの操作を整理して他者に伝えるのに役立ちます。

次の例は、ケーキを注文するスキルのストーリーボードです。

Storyboard

ユーザージャーニー

Customer Journey

ストーリーボードのユーザージャーニーセクションでは、ユーザージャーニーの開始から終了までに含まれるすべての目標のコンテキストを指定します。ストーリーボードで、順を追ってこのユーザージャーニーを説明します。ストーリーボードの各フレームは、特定の目標を表します。この場合、ユーザーの目標は、注文するケーキを探すことです。

画面

ストーリーボードの画面セクションでは、画面の表示方法の例を示します。最初は、完全にレイアウトされた画面をデザインする必要はなく、メインコンテンツになる対象に重点を置きます。

Screens

シナリオ

シナリオでは、ユーザーの発話とAlexaの応答の両方を書き出します。シナリオを書くのは難しいと感じるかもしれませんが、ユーザーの目標(ケーキを探す)に沿って、この目標を達成するできるだけシンプルで直線的なダイアログを書いてみましょう。

Script

ストーリーボードの作成を開始する前に、スケッチファイルを参照してください。このファイルには、入力して独自のスキルタイプを作成するためのストーリーボードがあります。

デザインのプロトタイプ作成

プロトタイプは、デザインを関係者に伝えたり、フィードバックを得るためにユーザーの前でコンセプトを披露したりするのに便利です。ストーリーボードをいくつか作成したら、それらを基にしてデザインのプロトタイプ作成を開始できます。

以下のツールは、このプロセスを簡単にするのに役立ちます。

Adobe XDツールキット

Adobe XD

Adobe XDのAdobe XD UIキットを使用して、APL画面をより簡単にデザインできます。タップ、タッチ、音声トリガーなどの対話方法を使用して画面をまとめることができます。画面間で転送する場合、Adobe XDは音声再生とビジュアル表示を有効にします。プロトタイプはAdobe XD内とEcho Showデバイス上で表示できます。「Alexa Open Adobe XD」と話しかけるだけで、独自のデバイスのプロトタイプを試すことができます。(日本未対応)

Sketchツールキット

Sketch Toolkit

Alexa Design System Sketchツールキットには、Alexa Presentation Language(APL)で構築されるマルチモーダルスキルをデザインするためのライブラリとテンプレートが含まれています。これらのライブラリとテンプレートは、コードベースのAlexaスタイルとAlexaレイアウトパッケージを表します。レスポンシブ対応テンプレートとレスポンシブ対応コンポーネントは、さまざまなviewportプロファイルに自動的に適応します。Amazonは、APLのメジャーリリースごとにツールキットを更新しているので、常に最先端のツールを使用してデザインできます。

ダウンロード可能なツールキットには、次の機能が含まれています。

  • Alexa Design Systemライブラリプラグイン - Sketchライブラリは、リスト項目、アイコン、色などのコンポーネントとスタイルのコレクションで、レイアウトやユーザーエクスペリエンスの構築に役立ちます。このライブラリには、ライブラリのコンポーネントとスタイルで構築されたデバイスのviewportプロファイルをサポートするAlexaレスポンシブ対応レイアウトが含まれています。
  • Alexa Design Systemテンプレート - このファイルには、ライブラリのコンポーネントとスタイルを使用して構築されたサポートされているviewportプロファイルのフルスクリーンのAlexaレスポンシブ対応レイアウトが含まれています。
  • Amazonの書体 - テンプレートとライブラリでは、Amazon Ember DisplayとBookerlyの書体が使用されています。これらの書体もダウンロードが可能です。

Amazon Pollyオーディオファイル

Amazon Polly

話し言葉と書き言葉は同じではありません。スキルの人格のデザインに関する記事で説明したように、話し言葉では、トーン、ピッチ、話す速度、単語の強調が一定ではありません。声は落ち着いているときも、驚いたようなときもあります。Amazon Polly読み上げツールを使用して、シナリオで記述した内容を実際に音声で確認し、Alexa応答のサンプルをダウンロードできます。Amazon Polly読み上げツールでは、音声合成マークアップ言語(SSML)を使用して、一時停止やその他の音声効果を音声出力に追加することもできます。

デザインのテストと反復

プロトタイプを作成したら、実際のユーザーに見てもらいましょう。できれば、製品に関与していないユーザーにプロトタイプを試してもらうことが望ましいです。予算があれば、usertesting.com(http://usertesting.com/)などのツールを使用して、ユーザーを募集できます。予算がない場合は、家族や友人を登録してください。テストでは、何もフィードバックがないのがよいわけではありません。ユーザーからのフィードバックは常に大切です。

以下のような疑問に答える際に、ユーザーフィードバックが役立ちます。

  • 適切なユーザージャーニーをデザインしたか? - ユーザーが想定した目標を達成していますか。 開発者が想定した対話で目標が達成されていますか。
  • スキルの人格を適切に設計したか? - ユーザーはスキルの人格に親近感を持つと思いますか。 スキルの人格が、かえってユーザーに不快感を与えていませんか。
  • ユーザーは視覚的表現を理解しているか? - ユーザーが重要な決定を下すための適切な情報を画面に表示していますか。 ユーザーは入力またはスワイプできる内容を理解していますか。
  • 適切なプロンプトを作成したか? - ユーザーはスキルで何ができるかを理解していますか。 ユーザーは開発者が想定していなかったパスをたどっていますか。

早い段階でテストを行うことで、ソリューションのコーディングを開始する前に、正しい決定を下していることを確信できます。

ベストプラクティス

音声エクスペリエンスをデザインする際は、次のベストプラクティスを念頭に置いてください。

目で読むのではなく耳で聞くことを前提にする

Alexaのプロンプトは耳で聞くためのものです。読むためではありません。つまり、話し言葉で書くことが重要です。学校で習ったことはいったん忘れてください。完全な文になっていなくても、略語を使っていても、助詞で終わっていても、話し言葉として自然に聞こえればかまいません。

率直かつ明瞭に話す

率直、明瞭、明確な言葉を使用してください。率直な言葉を使うことで、対話相手のスキルの人格がユーザーに協力していることがユーザーに伝わりやすくなります。この率直な表現は、シンプルでありながら洗練された構造であるため、ユーザーは簡単に聞き取り、理解できます。

さまざまな発話に合わせる

あるインテントに対して、開発者の想定どおりの文言をユーザーが発話するとは限りません。「旅行の計画を立てて」と言うこともあるでしょうし、「休みにハワイに行きたい」と言う可能性もあります。 スキルがさまざまなユーザー発話に対応できるよう、ユーザーが言いそうな文、フレーズ、言葉を想定し、幅広く用意しておきます。

エラーに適切に対応する

Alexaがユーザーの言うことを聞き取れなかった、または正確に理解できなかったことだけを告げるエラーメッセージは避けてください。たとえば「聞き取れませんでした」などです。 このような応答では、ユーザーはエラーの原因となったフレーズを単に繰り返すだけです。代わりに、操作に役立つ情報を追加して、できるだけ指示を明確にします。