Amazon Alexa Sprachdesign Guide

Wie Alexa antwortet

Wie Alexa sprechen sollte, damit Nutzer sie einfach verstehen und ihr antworten können

Alexa formuliert Antworten, Informationen und Fragen in natürlicher Sprache. Beachte beim Entwurf der Sprache, die Alexa gegenüber deinen Nutzern anwendet, die nachstehenden bewährten Methoden.

Fasse dich kurz

Für Nutzer ist es wichtig, dass sich Alexa kurz und präzise ausdrückt, ohne überflüssige Wörter zu verwenden. Auf diese Weise verstehen sie besser, was Alexa sagt, und haben mehr Vertrauen in die Vorgänge. Längere Antworten sind dagegen schwerer zu verstehen und mühsamer zu merken.

In einem Atemzug

Wenn du aufschreibst, was Alexa sagen wird, lies den Text laut vor. Wenn du die Wörter in einem normalen Gesprächstempo in einem Atemzug sagen kannst, ist die Länge wahrscheinlich gut. Wenn du zwischendrin Luft holen musst, überlege dir, ob du die Länge nicht verkürzen kannst.

Für eine Antwort, die aufeinanderfolgende Vorschläge umfasst, wie beispielsweise verschiedene Schritte einer Aufgabe, lies jeden Vorschlag einzeln. Auch wenn die vollständige Antwort mehr als einen Atemzug erfordert, achte darauf, dass du nur zwischen den einzelnen Ideen und nicht während ihnen atmest.

Zwei-Meter-Test

Echo Show ergänzt das Spracherlebnis mit weiteren Informationen auf dem Bildschirm. Gehe davon aus, dass der Nutzer zwei Meter entfernt ist. Vermeide es, das Spracherlebnis zu kopieren, und biete stattdessen über die grafische Komponente zusätzliche Informationen an. Verwende die visuellen Elemente, um Feedback zu geben und dem Nutzer die Möglichkeit zu geben, seine Wünsche schneller zu erfüllen.

Weitere Informationen zur Implementierung visueller Erfahrungen auf Echo Show findest du unter Wähle die richtige Vorlage für Echo Show aus.

Spreche und schreibe in natürlicher Sprache

Rege den Nutzer an, seine Wünsche auf natürliche Weise zu formulieren. Biete ihm keine Menüoptionen an. Teile dem Nutzer stattdessen die Möglichkeiten mit und führe ihn zu einer produktiven Eingabe.

Achte darauf, dass Alexa wie ein Mensch spricht, verwende beispielsweise Schmelzwörter, aber vermeide Fachsprache. So kann der Nutzer Alexa leichter verstehen und wird angeregt, auf natürliche Weise zu antworten.

Vergiss nicht, deine Ansagen abzuhören, wenn sie von Alexa gesprochen werden. Manchmal hört sich ein geschriebener Satz nicht natürlich an und muss umgeschrieben werden.

Richtig

Alexa, öffne Reiseplaner.

Lass uns deine Reise planen. Wohin möchtest du reisen?

Falsch

Lass uns deine Reise planen. Sage „Ich möchte nach Stadtname reisen”, um mir mitzuteilen, wohin du reisen möchtest. Sage „Ich reise am Datum ab“, um mir mitzuteilen, wann du abreisen möchtest. Sage „Ich reise von Stadtname ab“, um mir den Abreiseort mitzuteilen. Was möchtest du tun?

Echo Show
Vermeide es, einfach vorzulesen, was auf dem Bildschirm angezeigt wird. Lass Alexa lieber über die eigentliche Idee reden und zeige dem Nutzer anhand der visuellen Elemente zusätzlichen Kontext oder weitere Optionen an.

Leite den Nutzer durch den Skill

In der Regel solltest du mit einer Frage abschließen, bevor der Nutzer antwortet. Durch die Frage weiß der Nutzer, wann er anfangen kann zu sprechen, und erhält gleichzeitig eine Idee, was er als Nächstes sagen sollte. Schließe die Ansage direkt nach der Frage ab, damit Nutzer nicht versuchen zu antworten, während Alexa noch spricht. Sei konkret, aber bereite dich darauf vor, dass der Nutzer auf andere Weise oder zu ausführlich antwortet.

Richtig

Lass uns Deine Reise planen. Welche Stadt möchtest Du besuchen?

Falsch

Lass uns deine Reise planen. Ich kann dir helfen, sobald ich weiß, wohin du reisen möchtest und was du dort unternehmen willst. Wohin möchtest du reisen? Du warst erst kürzlich in Mailand.

Nächste Schritte auf Echo Show
Wenn du über einen Bildschirm verfügst, sind nicht so viele Fragen notwendig, um das Gespräch in Gang zu halten. In diesem Fall kannst du dich eher auf den Bildschirm verlassen, um den Nutzer auf die nächsten Schritte hinzuweisen. Der Nutzer kann den Bildschirm berühren oder sprechen, um den nächsten Schritt einzuleiten. So kann er beispielsweise sagen: „Alexa, zeig mir mehr.“

Verwende Gesprächsmarker

Wenn sich Menschen unterhalten, verwenden sie Markierungswörter und -ausdrücke, um Themen zu strukturieren und das Gespräch zu lenken. Dadurch lassen sich die Gespräche in verständlichere Abschnitte unterteilen. Die Nutzer deines Skills profitieren genauso von Markierungswörtern und -ausdrücken.

Zeitrahmenmarker
„Zuerst“, „dann“, „anschließend“ und „zuletzt“ sind hilfreich, um Erwartungen bezüglich der Dauer, Abfolge und Bereitschaft für die nächsten Schritte festzulegen. Verwende diese Wörter, wenn die Erfahrung mehrere Schritte umfasst oder zeitaufwändig ist. Vermeide Zeitrahmenmarker jedoch für schnelle Interaktionen.
Anerkennung und Feedback
„Danke“, „verstehe“, „okay“, „klasse“ und „sicherlich“ vermitteln dem Nutzer, dass er verstanden und die Information erhalten wurde.
Verweise
„Dies“, „der/die/das“, „dabei“ und „es“ helfen bei der Identifikation von Subjekten, auf die zuvor verwiesen wurde oder die in Kürze erwähnt werden.
Übergänge
„Nun“, „so“, „okay“ und „als Nächstes“ sind bei der Einführung einer Veränderung behilflich, wenn beispielsweise ein anderes Thema angeschnitten wird.

Richtig

Okay, ein Pullover wird in drei Schritten gewaschen. (halbe Sekunde Pause)

Wende den Pulli zuerst auf links und wasche ihn mit normalem Waschmittel im Schonwaschgang. (halbe Sekunde Pause)

Lege den Pulli als Nächstes bei niedriger Temperatur für 10 Minuten in den Trockner. (halbe Sekunde Pause)

Lege den Pulli anschließend zum Trocknen flach hin. Das war’s!

Gestalte die Utterances abwechslungsreich

Abwechslung bringt ein natürliches, weniger roboterartiges Gefühl in das Gespräch und verhindert, dass wiederholte Interaktionen mechanisch oder auswendig gelernt klingen. Verwende dazu für die gleiche Ansage zufällig ausgewählte Synonyme.

Sorge bei Ansagen, die vom Nutzer häufig gehört werden, beispielsweise bei den Start- und Abschlussansagen, für Abwechslung. Auf diese Weise kannst du etwas Persönlichkeit einbringen.

Adaptive Ansagen
Wenn ein Nutzer einen Skill häufig verwendet, wird er zunehmend vertraut damit und weiß, was zu erwarten ist. Daher sollten Ansagen mit der Zeit kürzer und direkter werden und dabei möglicherweise auch die Häufigkeit der Nutzung berücksichtigt werden.

Beispiel

Alexa, lass MeinTutor die heutige Lektion abspielen.

Variante 1

Okay, die heutige Lektion wird abgespielt.

Variante 2

Gerne! Viel Spaß mit der heutigen Lektion.

Variante 3

Wird gemacht! Die heutige Lektion ist wirklich gut.

Variante 4

Hier die heutige Lektion. Viel Spaß!

Vorhersehbarkeit auf Echo Show
Auf dem Bildschirm sind Wiederholungen und Vorhersehbarkeit angemessen – deine Nutzer werden es dir danken. Achte während der gesamten visuellen Erfahrung auf konsistente Terminologie, Grafiken und Beschriftungen. So ist es für Nutzer leichter, den Inhalt zu überfliegen und sich zurechtzufinden.

Verwende konsistente Sprachstrukturen

Verwende die gleichen Substantiv- und Verbformen, besonders für Elemente einer Gruppe. Siehe Weitere Informationen zu Listen.

Richtig

Ich kann dir bei folgenden Dingen helfen: Eine Fahrgelegenheit finden, dem Fahrer Trinkgeld geben, Preisanstiege überprüfen oder eine Quittung anfordern.

Falsch

Ich kann dir bei folgenden Dingen helfen: Eine Fahrgelegenheit finden, Trinkgeld für den Fahrer, Preisanstiegsüberprüfung oder Quittungen.

Erinnere dich, was bereits gesagt wurde

Nutzer wissen es zu schätzen, wenn sich Alexa ähnlich wie bei einem Gespräch mit einem Freund an kürzlich Gesagtes und die letzten Ereignisse zu erinnern, insbesondere bei häufigen Aktionen und gleichbleibenden Informationen. Es ist, als würdest du ein Spiel spielen, dieses für ein oder zwei Stunden unterbrechen und dann genau dort weitermachen, wo du aufgehört hast.

Informationen dazu, wie du dies in deinen Skill einbauen kannst, findest du in der Dokumentation zu Sitzungsattributen, unter Sitzungsattribute in der Anleitung zum Node.js-SDK, und in der Anleitung zur Persistenz. (Englisch)

Vertraute Bilder auf Echo Show
Es kann sinnvoll sein, ein Bild oder eine Aufforderung zur letzten Aktion des Nutzers mit dem Skill anzuzeigen. So kannst du beispielsweise die Frage “Möchtest du den Möhrenkuchen fertig backen?” mit einem Bild des Kuchens anzeigen.

Biete eine definitive Auswahl an

Strukturiere deine Antworten und Aufforderungen, um dem Nutzer eine klare Wahl zu lassen. Offene Fragen können den Nutzer verwirren oder Antworten provozieren, die so nicht erwartet oder unterstützt werden. Die Frage “Was möchtest du?” ist beispielsweise zu offen. Selbst eine Frage wie “Möchtest du Brie oder Gouda?” kann zu der einfachen Antwort “Ja” führen.

Richtig

Wir haben Brie und Gouda. Was kann ich Dir anbieten?

Falsch

Möchtest du Brie oder Gouda?

Was möchtest du haben? Brie oder Gouda?

Beende die Aufgabe und die Skill Session
Sobald dein Skill die Informationen ausgegeben hat, nach denen der Nutzer gefragt hat, sollte die Session beendet werden. Auch, wenn du dem Nutzer an dieser Stelle gern noch ein paar interessante Features zeigen möchtest. Es kann für den Nutzer sehr frustrierend sein, weitere aus seiner Sicht unnötige Fragen beantworten zu müssen, so dass sich dies auch negativ auf die Nutzungshäufigkeit deines Skills auswirken kann. Eine Frage wie: „Kann ich sonst noch etwas für dich tun?“ zwingt den Nutzer, sich alle Fähigkeiten deines Skills in Gedächtnis zu rufen. Für den Nutzer kann diese Erfahrung noch frustrierender werden, wenn er sich gerade in einer lauten Umgebung befindet oder wenn er den Skill erst explizit durch einen zusätzlichen Sprachbefehl beenden muss. Um deinen Nutzern alle Möglichkeiten deines Skills vorzustellen, überlege, wie du die Einführung in deinem Skill verbessern kannst.

Richtig

Nutzer: Ich möchte gern Brie essen.

Alexa: Gute Wahl. Brie wird am besten in Raumtemperatur serviert und kann mit Crackern und Früchten, wie zum Beispiel Weintrauben genossen werden.

Falsch

Nutzer: Ich möchte gern Brie essen.

Alexa: Gute Wahl.

Alexa: Womit kann ich dir noch behilflich sein?

Wahlmöglichkeiten auf Echo Show

Wenn der Nutzer um eine Auflistung bittet, sollte dein Skill stimmlich im Unterhaltungston antworten und in einer Vorlage auf dem Bildschirm formeller. Erstelle Listenelemente mit eindeutigen Namen, Bildern und Hinweisen, aus denen der Nutzer klar erkennen kann, woraus er wählen kann. Denke daran, dass Nutzer sowohl durch Tippen auf ein Listenelement als auch durch Benennen eines Elements dieses auswählen können. Weitere Informationen findest du unter Zweck der Navigation durch Listen.

Um Wahlmöglichkeiten aus einer Liste anzuzeigen, ist oft eine Listenvorlage die beste Wahl.

Listenvorlage 1, vertikale Liste: Listenvorlage 1 (vertikale Liste)

Listenvorlage 2, horizontale Liste: Listenvorlage 2 (horizontale Liste)

Richtig

Welche Käsesorten werden aus Kuhmilch hergestellt?

Variante 1

Hier sind einige Käsesorten, die aus Kuhmilch hergestellt werden.

Variante 2

Brie und Gorgonzola sind sehr beliebt. Hier noch einige weitere Käsesorten.

Überschriften auf Echo Show
Verwende in der Vorlage eine Überschrift, um den Listeninhalt zu beschreiben und die Auswahlmöglichkeiten klar zu umreißen. Formatiere die Überschrift, z. B.: “Ergebnisse für Kuhmilchkäse”. Variiere die Sprachantwort und achte darauf, dass der Titel in der Vorlage klar und einheitlich gewählt wird. So kann der Nutzer mit einem Blick auf den Bildschirm erfassen, was die Liste enthält.

Präsentiere Optionen kurz, übersichtlich und zügig

Listen sind länger und komplexer als eine einfache Antwort. Wenn du zwischen zwei und fünf Optionen anbietest, behandle jedes Element wie eine einfache Antwort und lege klare Anforderungen für den Inhalt fest.

Lass Alexa die Liste einführen, z. B. mit “Diese schnellen Mahlzeiten sind sehr beliebt.” und lass sie zwischen den einzelnen Elementen der Liste jeweils eine kurze Pause machen. Stelle sicher, dass du jedes Element in normalem Gesprächstempo problemlos in einem Atemzug vorlesen kannst.

Kurz fassen in Listen

Lass Alexa den wichtigsten Inhalt jedes Listenelements vorlesen. Sie sollte beispielsweise immer die Überschriften vorlesen, sekundären Text jedoch nur, wenn er für die Sprachantwort wichtig ist. Allgemein sollte es nicht länger als 20 Sekunden dauern, die ersten Elemente der Liste vorzulesen.

Lasse zunächst die ersten zwei bis fünf Elemente vorlesen und nimm dann Anpassungen basierend auf den folgenden Faktoren vor:

  • Wie vertraut ist der Nutzer mit den Listenelementen?
  • Wie lang und gut aussprechbar sind die Namen der Punkte?
  • Wie viele Punkte sind pro Element vorzulesen und anzuzeigen? Alexa kann beispielsweise den Namen des Elements vorlesen und Elemente für Bilder, Bewertungen und Entfernung anzeigen.
  • Sind genug Listenelemente vorhanden, ohne dass der Nutzer überflutet wird?
Elemente in Listen anordnen
Um beim Lesen einer Liste ein besseres Erfassen zu ermöglichen, können Listenelemente in Zweier- oder Dreiergruppen unterteilt werden. Versuche nicht, alle Informationen in den Listenelementen unterzubringen. Gib dem Nutzer die Möglichkeit, auf ein Element zu tippen, um mehr zu erfahren.

Richtig

Diese Käsesorten könnten dir gefallen: Cheddar und Gouda und außerdem Gorgonzola, Parmesan und Brie.

Falsch

Dir könnten Cheddar, Gouda, Jarlsberg, Porter Cheddar, St. Agur Blue Cheese, Gorgonzola, Brie, Gruyere, Sharp Cheddar und Reggiano Parmesan gefallen.

Unterteilung in Listen
Verwende Unterteilungen, damit der Zuhörer leichter unterscheiden kann, wann ein Listenpunkt beendet ist und ein neuer beginnt, z. B.:
  • Verwende SSML, um ein Komma und 350 ms Pause nach jedem Listenpunkt festzulegen, statt einen Punkt oder ein Fragezeichen zu verwenden. Dadurch klingt der letzte Punkt in der Liste ähnlich wie alle anderen Punkte der Liste.
  • Füge keine zusätzliche Pause nach der Einführung der Liste ein, die mit einem Punkt oder Fragezeichen endet.
  • Bei langen Listenpunkten oder Punkten, bei denen der Nutzer kurz nachdenken muss, sollte die Pause von 350 ms auf 400 ms verlängert werden.
  • Höre dir die Aussagen immer testweise an und nimm gegebenenfalls Anpassungen vor, bis es gut klingt.
Listen laut vorlesen

Wenn Alexa nur einige Optionen aus der Liste vorliest, muss der Nutzer Alexa anweisen können, mehr Optionen vorzulesen.

Wenn du weißt, dass deine Nutzer an mehr als den ersten Listenpunkten interessiert sind, kann Alexa beispielsweise fragen “Möchtest du weitere Käsesorten hören?”

Echo Show: Lass Alexa den Nutzer auffordern: “Sag Bescheid, wenn du mehr hören möchtest.” Dann warte auf eine Nutzereingabe. So hat der Nutzer bis zu 30 Sekunden Zeit, sich die Punkte anzusehen oder sie anzutippen oder um weitere Informationen zu bitten. Wenn innerhalb dieser 30 Sekunden keine Eingabe erfolgt, wird die Skill-Sitzung beendet.

Richtig

(nur Echo Show) Sag Bescheid, wenn du mehr hören möchtest.

Richtig

Möchtest du weitere Käsesorten hören?

Listeneinführung auf Echo Show

Wenn du eine Liste auf Echo Show einführst, sollte diese möglichst einfach sein und möglichst wenige Informationen enthalten, damit der Nutzer die Liste durchsehen kann.

Vermeide Anweisungen wie “Du kannst den Namen der Käsesorte sagen oder auf das Element tippen.” Solche Anweisungen sind redundant und haben für den Nutzer nur einen geringen Nutzen, da das Interagieren mit Listen in vielen Skills gängig ist. Vermeide auch, die Nummerierung mit vorzulesen, es sei denn, diese ist relevant und ändert sich mit jeder Interaktion.

Stelle auch keine Frage, bevor die Liste eingeführt wurde. Die Frage “Welchen Käse möchtest du? Gouda, Cheddar, Brie, …” kann den Nutzer beispielsweise verwirren, da er nicht weiß, wann er sprechen soll, und möglicherweise versucht zu antworten, während Alexa noch die Optionen vorliest. Verwende keine Aufforderungen, die den Nutzer ermutigen, Alexa zu unterbrechen, z. B. “Wenn du die gewünschte Option hörst, sage sie einfach.” Solche Unterbrechungen sind auch deshalb nicht sinnvoll, da der Nutzer das Aktivierungswort verwenden muss, um Alexas Antwort zu unterbrechen.

Listenelemente auf Echo Show

Listenelemente müssen in der Regel nicht mit einem Satzzeichen abgeschlossen werden, da es sich nicht um vollständige Sätze handelt. Wenn du dem Nutzer jedoch eine Liste mit Beispielfragen anbietest, sollten diese mit Fragezeichen abgeschlossen werden. Ein Listenelement kann beispielsweise die Frage “Was ist an diesem Tag im Jahr 1918 passiert?” enthalten.

Listen auf Echo Show

Damit der Nutzer die Liste besser überblicken kann, solltest du die angezeigten Informationen sorgfältig auswählen und ein Layout wählen, dass es dem Nutzer ermöglicht, die Elemente schnell zu überfliegen. Für Elemente, die der Nutzer nur überfliegt, kannst du eventuell mehr Elemente auf dem Bildschirm anzeigen, indem du pro Element ein kleineres Bild verwendest. Wenn der Nutzer die Details jedes Elements genauer lesen muss, beispielsweise bei der Auswahl eines Rezepts, sollte ein breiteres Bild verwendet werden.

Listenvorlage 2 mit Bildern im Hochformat: Listenvorlage 2 mit Bildern im Hochformat

Listenvorlage 2 mit Bildern im Querformat: Listenvorlage 2 mit Bildern im Querformat

Vertikale Listen auf Echo Show

Verwende vertikale Listen für Listen ohne Bilder sowie für Listen, bei denen nicht für jedes Listenelement ein eigenes Bild verwendet wird. Vertikale Listen sind auch dann effizient, wenn für eine gute Nutzererfahrung kleine Bilder ausreichend sind. Sie eignen sich optimal für folgende Inhaltstypen:

  • Listen mit Beispieläußerungen (Sätze, die der Nutzer in deinem Skill sagen kann)
  • Zahlenwerte wie Preise oder Kalorienangaben
  • Listen mit Aktienkursen
  • Banktransaktionsverlauf
  • Listen mit Lebensmitteln
  • Kontaktlisten
  • Inhaltsverzeichnisse
  • Zeitpläne

Listenvorlage 1, vertikale Liste: Listenvorlage 1 (vertikale Liste)

Varianten in vertikalen Listen

Der Text für ein Listenelement kann über zwei Zeilen umgebrochen werden. Nach der zweiten Zeile wird der Text abgeschnitten und nicht in eine dritte Zeile umgebrochen. Um Text für die zweite Zeile festzulegen, verwende einen Zeilenumbruch oder das zweite Textfeld. Wenn du Text in der rechten Spalte anzeigen möchtest, verwende das dritte Textfeld.

Listenvorlage 1 mit erstem und zweitem Textfeld: Listenvorlage 1 mit erstem und zweitem Textfeld

Listenvorlage 1 mit erstem und drittem Textfeld: Listenvorlage 1 mit erstem und drittem Textfeld

Listenvorlage 1 mit erstem, zweitem und drittem Textfeld: Listenvorlage 1 mit erstem, zweitem und drittem Textfeld

Vertikale Liste mit Vorschaubildern

Listenvorlage 1 mit Vorschaubildern und erstem Textfeld: Listenvorlage 1 mit Vorschaubildern und erstem Textfeld

Listenvorlage 1 mit Vorschaubildern und erstem und zweitem Textfeld: Listenvorlage 1 mit Vorschaubildern und erstem und zweitem Textfeld

Listenvorlage 1 mit Vorschaubildern und erstem und drittem Textfeld: Listenvorlage 1 mit Vorschaubildern und erstem und drittem Textfeld

Listenvorlage 1 mit Vorschaubildern und erstem, zweitem und drittem Textfeld: Listenvorlage 1 mit Vorschaubildern und erstem, zweitem und drittem Textfeld

Listen mit eindeutigen Bilder auf Echo Show

Verwende eine horizontale Liste, wenn du eindeutige Bilder verwendest, die dem Nutzer helfen, Elemente aus der Liste auszuwählen. Eine horizontale Liste eignet sich auch hervorragend für Bücher, Alben, Filme, Videos, Ziele, individuelle Einrichtungen/Unternehmen und Produkte.

Listenvorlage 2 mit rechteckigen Bildern: Listenvorlage 2 mit rechteckigen Bildern

Varianten in Bilderlisten

Mit der Listenvorlage 2 lassen sich zahlreiche Seitenverhältnisse verwenden. Bilder werden an die Vorlage angepasst. Die Bildhöhe sollte 280 Pixel betragen und die Breite zwischen 192 und 498 Pixeln. Die Vorlage skaliert Bilder herunter, die die maximale Breite von 498 Pixeln und die maximale Höhe von 280 Pixeln überschreiten.

Listenvorlage 2 mit Bildern im Hochformat, 192 x 280: Listenvorlage 2 mit Bildern im Hochformat (192 x 280)

Listenvorlage 2 mit rechteckigen Bildern, 280 x 280: Listenvorlage 2 mit rechteckigen Bildern (1:1, 280 x 280)

Listenvorlage 2 mit breiten Bildern, 372 x 280: Listenvorlage 2 mit breiten Bildern (4:3, 372 x 280)

Listenvorlage 2 mit Bildern im Querformat, 498 x 280: Listenvorlage 2 mit Bildern im Querformat (16:9, 498 x 280)

Mit Problemen umgehen

Wenn Alexa den Nutzer nicht hört oder versteht, verwende natürliche, freundliche Formulierungen, um das Gespräch wieder auf den richtigen Weg zu bringen.

Erneute Aufforderung
Wenn Alexa keine Antwort vom Nutzer erhält, verwende eine erneute Aufforderung mit einer etwas anderen Formulierung. Dadurch bietet sich auch die Möglichkeit, weitere Details hinzuzufügen, falls der Kunde Alexa nicht verstanden hat.

Richtig

Alexa, öffne Reiseplaner.

Wohin möchtest du reisen?

(Keine Antwort)

Ich kann dir bei der Planung einer Reise helfen. Zuerst frage ich Dich, wohin es geht, wann du abreisen möchtest und was du an Deinem Reiseziel tun möchtest. Also: Welche Stadt möchtest du besuchen?

Alexa versteht nicht
Wenn Alexa die Aussage des Nutzers zwar hört, aber nicht verarbeiten kann, sei ehrlich und versuche, das Gespräch wieder auf den richtigen Weg zu bringen. Verwende eine direkte Anfrage, die dem Nutzer mitteilt, was er als Nächstes tun kann. So bekommt der Nutzer nicht das Gefühl, verloren zu sein.

Richtig

Alexa, öffne Reiseplaner.

Wohin möchtest du reisen?

Ich möchte nach Pferd reisen.

(Die Logik deines Skills erkennt, dass “Pferd” keine unterstützte Stadt ist.) Ich habe dich nicht verstanden. Welche Stadt möchtest du besuchen?

Alexa “hat nicht verstanden” versus “hat nicht gehört”
Wenn Alexa sagt, dass sie etwas nicht gehört hat, versucht der Nutzer vielleicht, lauter zu sprechen, was jedoch das Problem nicht löst. Alexa hat den Nutzer gehört und nur nicht verstanden, was er gesagt hat.

Falsch

Ich habe dich nicht gehört. Welche Stadt möchtest du besuchen?

Alexa hat verstanden, kann aber noch nicht helfen
Wenn der Nutzer nach einer nicht unterstützten Funktion fragt, verwende eine Formulierung wie “Ich kann dir mit X noch nicht helfen”, um dem Nutzer mitzuteilen, dass die Funktion derzeit noch nicht verfügbar ist, möglicherweise aber in einer künftigen Version implementiert wird. Um diese Option zu unterstützen, musst du Absichten für geplante Funktionen implementieren. So kannst du auch erfassen, wenn Nutzer eine noch nicht unterstützte Funktion verwenden möchten, und kannst diese Information verwenden, um die Funktionsentwicklung zu priorisieren.

Richtig

Ich möchte ein Auto mieten.

Dabei kann ich dir noch nicht helfen. Ich kann dir aber bei der Planung einer Reise helfen. Welche Stadt möchtest du besuchen?

Fehlermeldungen

Fehler kommen zwar selten vor, können jedoch zu Verwirrung führen. Teile dem Nutzer möglichst die Art des Fehlers mit, ohne Fachsprache zu verwenden. Wenn der Fehler wahrscheinlich nur wenige Sekunden andauern wird, bitte den Nutzer, es noch einmal zu versuchen. Andernfalls sollte der Nutzer nicht dazu ermutigt werden, damit er nicht noch einmal auf denselben Fehler stößt. Verwende eine möglichst genaue Nachricht wie “Dein Smart Lock reagiert gerade nicht.”

Noch nicht unterstützte Fälle: Nutzer können über eine Sprachschnittstelle alles Mögliche sagen. Ein eleganter Umgang mit Fehlern ist daher wichtig, um den Nutzer wieder zu dem Skill zurück zu leiten. Verwende für noch nicht unterstützte Anwendungsfälle Formulierungen wie “Das Trivia Mania-Quiz kann dir dabei noch nicht helfen”. Wenn die Aussage des Nutzers unverständlich ist, verwende eine Formulierung wie “Ich habe dich leider nicht verstanden.”

Wiederholung: Nachdem der Fehler abgearbeitet wurde, stelle dem Nutzer noch einmal die letzte Frage. Sage dem Nutzer möglichst nicht, dass du ihn nicht gehört oder verstanden hast, da er die Anforderung dann wahrscheinlich langsamer oder lauter wiederholt, statt sie anders zu formulieren.

Biete Kontexthilfe an

Wenn du auf eine Bitte um Hilfe antwortest, biete zusätzliche Aufforderungen an, um mehr Kontext für das aktuelle Gespräch zu bieten. Wenn ein Nutzer beispielsweise, während er eine Pizzabestellung bestätigen möchte, um Hilfe bittet, konzentriere dich darauf, die Bestätigung abzuschließen, und biete keine Auswahl von Pizzabelägen an. Gestalte das Gespräch so, dass der Nutzer möglichst selten Hilfe braucht.

Richtig

Alexa, öffne “Hol mich ab”.

Möchtest du, dass ich ein Taxi bestelle, um dich zuhause oder bei der Arbeit abzuholen?

Wie kann ich meine Adresse festlegen?

Du kannst die Adresse von Zuhause oder der Arbeit in der mobilen App von “Hol mich ab” ändern. (halbe Sekunde Pause) Wenn die Adresse schon eingerichtet ist, kann ich dir jetzt helfen. Möchtest du zuhause oder auf der Arbeit abgeholt werden?

Richtig

Wie verwende ich diesen Skill?

“Hol mich ab” bestellt dir ein Taxi. Du kannst zum Beispiel sagen “Bestell mir ein Taxi”, “Lege meine Adresse fest” oder “Bewerte meinen letzten Fahrer”. (halbe Sekunde Pause) Wir können dich zuhause oder auf der Arbeit abholen. Wo sollen wir dich abholen?

Das Node.js-SDK enthält ein Beispiel zum Einrichten von Hilfe-Handlern für unterschiedliche Status eines Skills.

Hilfe auf Echo Show
Die Hilfeantwort sollte Informationen zur Funktionalität des Skills sowie einige Beispielsätze enthalten, die Nutzer sagen können. Lass Alexa dann eine Frage stellen und auf die Antwort des Nutzers warten. Beispiel: "Der ABC-Skill hilft dir dabei, das englische Alphabet zu lernen und das Alphabetlied zu üben. Du kannst Dinge sagen wie “Was kommt nach W” oder “Ich möchte das Alphabetlied singen”. “Wie kann ich dir weiterhelfen?” Verwende für die Beispieläußerungen ganze Sätze.
Textvorlage 1 mit Hilfesätzen: Beispielliste mit Äußerungen, die angezeigt werden, wenn der Benutzer um Hilfe bittet
Hinweise: Einige Vorlagen auf Echo Show unterstützen einen Hinweissatz unten auf der Seite, der Nutzern hilft, schnell zu verstehen, was er als Nächstes tun kann. Fülle dieses Feld möglichst immer aus. Wenn du eine Frage stellst und auf die Antwort des Nutzers wartest, wird der Hinweis durch das blaue Sprachsymbol unten auf dem Bildschirm teilweise verdeckt. Daher sollten Hinweise nicht zu Fragen hinzugefügt werden, sondern nur dann, wenn der Bildschirm statisch ist.

Textvorlage 6 mit Hinweissatz: Beispiel eines Hinweissatzes

Wähle die richtige Vorlage für Echo Show aus

Wenn du deinen Skill für Echo Show entwickelst, wähle Vorlagen passend zu den geplanten Interaktionsmustern aus. Jede Vorlage entspricht einem Muster oder Szenario für eine optionale Nutzererfahrung. Wähle für jeden Zweck in deinem Skill eine Vorlage, die der Antwort entspricht, und richte passende Sprach- und Berührungsaktionen für Auswahl, Videosteuerung, Blättern und Navigation ein. Vorlagen sind für folgende wichtige Szenarios geeignet:

  • Aufruf/Begrüßung zum Skill
  • Listen
  • Inhaltsdetails
  • Vollbildbilder
  • Verzweigungen (Gespräch mit mehreren Verzweigungen oder Fragen/Antworten)
  • Klarstellungen
  • Hilfe
  • Navigation
  • Sitzungsabschluss/Verabschiedung

Folgende sechs Vorlagen sind verfügbar

  • Listenvorlage 1 – Vertikale Liste mit optionalen Vorschaubildern
  • Listenvorlage 2 – Horizontale Liste mit Bildern und optionalem Hinweis
  • Textvorlage 1 – Text oder Bilder in voller Breite
  • Textvorlage 2 – Bild rechts mit kurzem Text links und optionalem Hinweis
  • Textvorlage 3 – Bild links mit langem Text rechts und ohne Hinweis
  • Textvorlage 6 – Verzweigtes Szenario mit kurzem Text und optionalem Hinweis
Konsistenter und einfach zu lesender Inhalt

Formatiere Überschriften in Vorlagen als solche, z. B. “Ergebnisse für Kuhmilchkäse”. Verwende Formatierungen wie Fettdruck, Kursivschrift und Unterstreichungen in allen Vorlagen einheitlich.

Verwende für den Haupttext in der Regel die Standardtextgröße <font size = “7”>, da diese aus einer Entfernung von wenigen Metern am besten lesbar ist. Verwende für größere Textblöcke nicht ausschließlich Großbuchstaben, da diese schwer lesbar sind. Passe die Schriftgrößen an, um eine visuelle Hierarchie zu erstellen, und verwende Absätze, um lange Textblöcke zu unterteilen.

Text und Bilder in voller Breite

Verwende für lange Textblöcke, Bilder in voller Breite und Nachrichten, bei denen kein anderer Inhalt angezeigt werden muss, die Textvorlage 1. Die Vorlage ist für kürzere Texte ohne Blättern und längere Texte zum Blättern geeignet. Verwende diese Vorlage, wenn du Inhalt ohne zugehörige Bilder anzeigen möchtest oder Informationen darstellst, die nicht von einer Frage begleitet werden.

Textvorlage 1 mit ein bis zwei Textzeilen: Textvorlage 1 mit ein bis zwei Textzeilen

Textvorlage 1 mit langem Text, der durch Berührung durchgeblättert werden kann: Textvorlage 1 mit langem Text, der durch Berührung durchgeblättert werden kann

Actions (Sprachtasten)

Stell dir Actions wie Sprachtasten vor, die in einer eigenen Zeile untergebracht werden müssen. Implementiere Action-Links nicht im Absatztext. Achte darauf, dass die Utterance genau dem Action-Link entspricht, damit der Nutzer einerseits “Video ansehen” sagen oder auf die Action “Video ansehen” tippen kann, um das entsprechende Video anzusehen. Die Haupt-Actions sollten gut sichtbar immer oben auf dem Bildschirm sein und sich vom Haupttext abheben. Mögliche Haupt-Actions sind: Trailer ansehen, Spielzeiten, Teilen, Zu Liste hinzufügen, Tisch reservieren, Taxi bestellen und Tickets kaufen. Zeige pro Vorlage nicht mehr als drei Actions an.

Textvorlage 3 mit optionalen Actions: Textvorlage 3 mit optionalen Actions

Bilder in voller Breite (Textvorlage 1)

Mit Textvorlage 1 kannst du ein Bild im Vollbild anzeigen, wie unten dargestellt. Verwende ein Bild, das aus zwei Metern Entfernung gut erkennbar ist. Diese Vorlage funktioniert optimal mit einem großen Bild. Wenn du mehrere Bilder darstellen möchtest, verwende eine der anderen Vorlagen.

Textvorlage 1 mit einem eingebundenen Bild in voller Breite: Textvorlage 1 mit einem eingebundenen Bild in voller Breite

Bestimmte Einheiten (Textvorlagen 2 und 3)

Verwende die Textvorlagen 2 und 3, wenn Alexas Antwort eine bestimmte Einheit (eine Person, ein Ort oder ein Ding) oder eine Eigenschaft einer Einheit ist, die der Nutzer direkt erfragt oder aus einer Liste ausgewählt hat. Achte darauf, dass der Nutzer mindestens ein Element, optimalerweise die Überschrift und das Bild, aus einer gewissen Entfernung einfach erkennen kann. Verwende die Textvorlagen 2 und 3 in folgenden Fällen:

  • Der Nutzer hat eine bestimmte Einheit wie ein Rezept, ein Konto, ein Restaurant, eine Aktie oder ein Fahrerprofil angefragt.
  • Der Nutzer hat eine Eigenschaft einer bestimmten Einheit angefragt, beispielsweise die Telefonnummer eines Restaurants, den Kontostand eines bestimmten Kontos oder den Jahreshöchststand einer bestimmten Aktie.
  • Der Nutzer hat ein Element aus einer Liste ausgewählt, um weitere Informationen zu erhalten.
  • Es gibt für eine Anfrage des Nutzers nur ein Suchergebnis.

Textvorlage 2 mit Text ohne Blättern und optionalem Hinweis: Textvorlage 2 mit Text ohne Blättern und optionalem Hinweis

Textvorlage 3 mit kürzerem Text: Textvorlage 3 mit kürzerem Text

Bilder in Textvorlagen 1 und 2

Verwende Bilder, die man gerne ansieht und die den Skill aufwerten. Passe das Seitenverhältnis und die Größe des Platzhalters an, damit das Bild nicht gestreckt wird. Verwende für eine möglichst geringe Latenz Bilder unter 100 KB. Verwende einen transparenten Hintergrund für Bilder, da der Hintergrund des Echo Show grau ist und weiße Hintergründe nicht so makellos dargestellt werden.

Der Echo Show verfügt über einen dunklen und hellen Modus. Die Standardhintergrundfarbe wird automatisch daran angepasst. Im dunklen Modus sind schwarze Bilder schwierig anzuzeigen, während im hellen Modus weiße Bilder schwer erkennbar sind. Setze einen Kontrastrahmen um weiße oder schwarze Bilder, um sie in beiden Modi gut erkennbar zu machen.

Inhaltspriorisierung

Ordne Attribute nach ihrer Bedeutung für den Nutzer an. Häufige Attribute sind: Verfasserzeile, Bewertung, Preis, Verfügbarkeit (auf Lager/nicht verfügbar), Kategorie/Genre, Adresse/Standort(e), Telefonnummer und Öffnungszeiten.

Zusätzliche Informationen auf dem Bildschirm

Lies nicht einfach nur die Vorlage vor. Die Sprachantwort sollte im Unterhaltungston und kurzgefasst sein. Verwende die Vorlage, um zusätzliche Informationen bereitzustellen, die nicht gut sprachlich präsentiert werden können oder nicht so relevant sind. Gestalte den Text in der Vorlage ähnlich, aber nicht unbedingt identisch mit der Text-To-Speech (TTS)-Ausgabe. Eine optimale Nutzererfahrung bietet klarer, prägnanter Text in den Vorlagen.

Varianten von Textvorlage 2 und 3

Diese beiden Detailvorlagen können optionale Actions, Hinweise und langen Text enthalten.

Textvorlage 2 mit optionalen Actions: Textvorlage 2 mit optionalen Actions

Textvorlage 3 mit langem Text, der durch Berührung durchgeblättert werden kann: Textvorlage 3 mit langem Text, der durch Berührung durchgeblättert werden kann

Textvorlage 3 mit optionalen Actions und langem Text: Textvorlage 3 mit optionalen Aktionen und langem Text

Verzweigungen (Textvorlage 6)

Textvorlage 6 ist optimal geeignet für verzweigte Situationen, also Gespräche mit mehreren Verzweigungen, bei denen Alexa Fragen stellt und der Nutzer diese beantwortet. Diese Vorlage kann in verschiedenen Szenarios verwendet werden: Begrüßung, Navigation, Klarstellung und Verabschiedung. Sie ist ideal geeignet, um Fragen zu stellen, etwas klarzustellen oder Suchergebnisse ohne Elemente anzuzeigen.

Denk daran: Damit der Nutzer weiß, dass er nun etwas sagen soll, stelle ihm eine Frage und warte dann auf seine Antwort. Viele Nutzer interagieren mit Alexa, ohne ein Gerät anzusehen, und werden daher nicht optisch darauf hingewiesen, dass der Skill auf eine Antwort wartet. Es entspricht normalem Gesprächsverhalten, dem Nutzer eine Frage zu stellen und ihm so mitzuteilen, wann er sprechen soll.

Textvorlage 6 mit optionalem Hinweis: Textvorlage 6 mit optionalem Hinweis

Verzweigter Text: Verwende die Standardtextgröße von <font size="7"> für den Haupttext. Verwende für eine optimale Lesbarkeit ganze Sätze. Alexas Frage sollte am besten im Wortlaut angezeigt werden, sofern kein Hinweis vorhanden ist.

Hintergrundbilder: Verwende am besten ein Bild, das nicht bereits Text enthält, da dieser sich nicht mit dem Text der Vorlage überschneidet. Beachte bei Hintergrundbildern mit großen weißen oder hellen Bereichen, dass hierdurch die Lesbarkeit beeinträchtigt wird, da der Text darüber weiß ist. Verwische das Hintergrundbild leicht und setze darüber eine schwarze (#000000) Ebene mit 70 % Transparenz für eine optimale Lesbarkeit des Textes auf dem Hintergrundbild.

Für eine möglichst geringe Latenz sollten Bilder nicht größer sein als 500 KB.

Öffnen des Skills

Durch eine Begrüßung wie “Willkommen zu ‘Fakten über Katzen’” erkennt der Nutzer, dass er gerade einen Skill verwendet und den gewünschten Skill gestartet hat. Außerdem kannst du so deine Markenidentität in Alexa implementieren.

Anzeigen von Inhalten: Wir empfehlen, bei der Begrüßung zu deinem Skill den Inhalt in den Vordergrund zu setzen. Anders ausgedrückt solltest du dem Nutzer direkt Inhalte anbieten, mit denen er interagieren kann. Bei einem Rezepte-Skill kannst du beispielsweise mit der Listenvorlage 2 beliebte Rezepte anzeigen. Für eine Kino-App kannst du mit derselben Vorlage Vorstellungen anzeigen, die bald beginnen, oder die aktuellen Blockbuster auflisten. In einem Skill über Hunderassen kannst du eine Liste mit beliebten Hunderassen anzeigen oder mit der Textvorlage 1 den Hund des Tages präsentieren.

Einführung der Skill-Funktionalität: Du kannst in der Begrüßungsnachricht andere Verwendungszwecke des Skills erwähnen, um dem Nutzer mitzuteilen, was außer dem derzeit auf dem Bildschirm angezeigten Inhalt noch möglich ist. Je proaktiver dein Skill interaktive Inhalte anbietet, desto weniger ist der Nutzer gezwungen, sich erst zu überlegen, was er sagen soll. Wenn du dich nicht entscheiden kannst, welche Inhalte du zuerst präsentieren sollst, ist der Inhalt, den du am prominentesten auf deiner Website oder der Startseite deiner App anzeigst, eine gute Wahl.

Richtig

Beispielnachricht für “Der tägliche Käse”

Willkommen zu “Der tägliche Käse”. Du kannst Käse nach Festigkeit, passend zu Wein und Bier oder nach verwendetem Milchtyp suchen. Für weitere Optionen sage “Hilfe”.

Beispielnachricht für “Die Welt der Hunde”

Willkommen zu “Welt der Hunde”. Der Hund des Tages ist der Foxterrier, eine verspielte, kleinwüchsige Rasse. Du kannst nach Rassen suchen oder Trainingsvideos ansehen. Für weitere Optionen sage “Hilfe”.

Begrüßungsnachricht

Wenn du keine umfangreiche Begrüßungsnachricht hast, kannst du ein ansprechendes Hintergrundbild und minimalen Text verwenden, beispielsweise "Willkommen zu “Der tägliche Käse” und darunter “Probiere einmal, ‘Alexa, erzähl mir den Käsewitz des Tages’”. Echo Show ist ein sprachzentriertes Gerät mit Bildschirm, daher sollte Alexa dem Nutzer mitteilen, was er tun kann, sodass er nicht erst den Bildschirm lesen muss. Wenn der Nutzer eine Liste mit Beispielsätzen braucht, verwende Listenvorlage 1. Diese Vorlage ist für Listen mit Sätzen optimiert und kann per Sprachbefehl durchgeblättert werden.

Textvorlage 6 als Begrüßungsseite: Textvorlage 6 als Begrüßungsseite

Navigation

Teile dem Nutzer mit, welche Funktionen der Skill hat. Biete dem Nutzer mehrere natürliche Varianten an, auf die Funktionalität des Skills zuzugreifen. Stelle am Ende einer Aufgabe nicht mehrere Fragen, z. B. “Möchtest du mehr hören?” oder “Okay, kann ich dir noch bei etwas Anderem helfen?” Nutzer werden schnell frustriert, wenn sie nach Abschluss einer Aufgabe Fragen beantworten müssen.

Klarstellung

Klarstellungen ermöglichen es dem Nutzer, sich auf natürliche Weise mit Alexa zu unterhalten, ohne direkt alle Informationen liefern zu müssen oder wissen zu müssen, welche Informationen benötigt werden. Wenn Informationen fehlen oder nicht eindeutig sind, stellt Alexa Fragen zur Klarstellung. Beachte, dass Fragen zur Klarstellung am besten sofort gestellt werden sollten, bevor auf die Antwort des Nutzers gewartet wird. Es kann den Nutzer verwirren, wenn Alexa eine Frage stellt und dann weiterspricht, da der Nutzer davon ausgeht, dass Alexa zuhört, obwohl sie noch spricht.

Richtig

Alexa, bestelle mir ein Taxi.

An welche Adresse?

Richtig

Alexa, mach einen Termin.

Für welches Datum?

Textvorlage 6 mit Frage zur Klarstellung: Textvorlage 6 mit Frage zur Klarstellung

Kein Ergebnis: Nutzer Textvorlage 6, wenn keine Ergebnisse gefunden wurden. Verwende Hinweise, um den Nutzer anzuleiten, wie er Ergebnisse findet.

Textvorlage 6 ohne Ergebnisse mit optionalem Hinweis: Textvorlage 6 ohne Ergebnisse mit optionalem Hinweis

Schließen der Skill-Sitzung: Es ist für den Nutzer angenehm, wenn beim Beenden des Skills eine Abschiedsnachricht und ein Bild angezeigt werden. Dadurch weiß der Nutzer, dass der Skill beendet wurde. Diese Vorlage und Nachricht kann als Antwort für AMAZON.CancelIntent oder den AMAZON.StopIntent verwendet werden.

Textvorlage 6 mit Abschiedsnachricht: Textvorlage 6 mit Abschiedsnachricht

Verwende aufgezeichnete Audiomaterialien

Insbesondere, wenn du jemanden hast, der aufgezeichnete Audiomaterialien einsprechen kann, können diese durchaus hilfreich sein. Für Beispiele probiere Skills wie Die Tagesschau in 100 Sekunden und Tiergeräusche aus.

Kurze Audioclips

Audioclips mit einer Länge unter 90 Sekunden gelten als kurze Audioclips. Sie halten die Skill-Sitzung geöffnet, sodass der Nutzer den Skill nicht erneut durch das Aktivierungswort aufrufen muss. Verwende kurze Audioclips, wenn du davon ausgehst, dass nach Abspielen des Audioclips eine weitere Interaktion mit dem Nutzer erfolgt.

  • Dateityp: MP3
  • Spezifikation: 16 000 Hz mit einer Bitrate von 48 Kbit/s
  • Länge: maximal 90 Sekunden

In der SSML-Referenz (Englisch) findest du weitere Informationen zur Implementierung von kurzen Audioclips.

Lange Audioclips

Wenn du einen audiobasierten Skill wie einen Podcast erstellst, verwendest du lange Audioclips. Audioclips mit einer Länge über 90 Sekunden gelten als lange Audioclips. Sobald der Audioclip abgespielt wird, wird der Skill geschlossen. Der Nutzer kann den Audioclip ohne Verwendung des Invocation Name steuern, indem er beispielsweise sagt “Alexa, weiter”. Um erneut mit dem Skill zu interagieren, muss der Nutzer den Skill erneut aufrufen, indem er “Alexa” und den Invocation Name sagt. Verwende lange Audioclips, wenn du davon ausgehst, dass die Interaktion des Nutzers zur Steuerung des Audioclips erfolgt. Dein Skill kann für eine fortlaufende Wiedergabe auch neue Audiodateien zur Warteschlange hinzufügen und eine Wiedergabeliste erstellen.

  • Dateitypen: ACC, MP4, MP3, HLS, PLS, M3U
  • Spezifikation: Bitraten zwischen 16 und 384 Kbit/s
  • Länge: unbegrenzt

Weitere Informationen zur Implementierung von langen Audioclips findest du unter Audio Streaming in Alexa Skills und AudioPlayer Interface Reference. (Englisch)

Verwende Videos auf Echo Show

Wenn du Videoinhalte hast, kannst du diese jetzt in deinen Skill integrieren, um die Erfahrung auf Echo Show noch zu verbessern. Du kannst das Video entweder sofort abspielen, eine Listenvorlage mit Videooptionen anzeigen oder den Nutzer über einen Aktionslink zu einem Video führen.

Achte darauf, dass die Lautstärke des Videos etwa der Gesprächslautstärke von Alexa entspricht. Der Ton muss während der Videowiedergabe mit dem Video synchron sein.

Video-App mit Überschrift und Hinweis: Video-App mit Überschrift und Hinweis

Starte jetzt deinen Skill