Como Construir uma Skill Multimodal

Por que construir skills multimodais de Alexa?

Índice

Multimodal é a inclusão de outras formas de comunicação, como os recursos visuais, na experiência de voz que a Alexa já fornece. Ainda que a Alexa seja voice first (primeiro a voz), incluir elementos visuais como um modo secundário pode enriquecer muito a experiência de clientes que usam dispositivos com tela habilitados para a Alexa. Existem mais de 100 milhões de dispositivos Alexa, incluindo dispositivos Echo, como Echo Spot, Echo Show, FireTV, tablets Fire e dispositivos de outros fabricantes com a Alexa embutida, como o Lenovo Smart Tab e as TVs LG. Adicionar outro modo à skill de Alexa pode melhorar a experiência de seus clientes nesses dispositivos das seguintes formas:

Aumente o nível de detalhes na resposta da sua skill

 

Skills multimodais podem fornecer mais informações através de recursos visuais, resultando em uma melhor experiência para o cliente. A voz é um meio fantástico de interação com os usuários porque é intuitiva e eficiente, mas não é uma boa escolha para apresentar informações complexas ou em grandes quantidades de uma vez só. O melhor é manter a resposta de voz o mais sucinta possível e dar informações mais detalhadas através dos elementos visuais. Por exemplo, uma skill de meteorologia que informa a previsão do tempo diária pode falar da temperatura e da chuva enquanto, na tela, mostra dados meteorológicos com riqueza de detalhes sobre a umidade, a velocidade do vento e a temperatura por hora. Durante a resposta de voz, ela pode detalhar os dados meteorológicos, como, por exemplo: a temperatura, a umidade e a velocidade do vento por hora. Todas as informações fornecidas podem ser relevantes, mas a Alexa levaria muito tempo para ler todos esses dados, o que deixaria os clientes irritados e entediados. Se o dispositivo solicitante não tiver uma tela, a Alexa pode ler mais informações para o cliente, como a umidade e a velocidade do vento. Nos dois casos, você precisa permitir que o usuário peça mais detalhes. Mesmo que a pessoa tenha um dispositivo multimodal, não podemos presumir que ela estará sempre olhando para a tela. Mais à frente neste curso, vamos abordar os detalhes sobre como determinar se o dispositivo Alexa solicitante tem tela.

Recursos visuais complementares

Os dispositivos multimodais permitem incorporar uma identidade visual à experiência. Você pode incluir a logo da sua marca, uma paleta de cores e um estilo para criar uma experiência visual única para os clientes. Por exemplo, se você tem uma skill de negócios, pode ser uma boa ideia exibir uma tabela de resumo das vendas com o logo da sua skill no topo e definir cores para representar as métricas, tais como lucros e prejuízos. Elementos visuais de alta qualidade melhoram a imagem da sua marca em uma skill e deixam a experiência do usuário mais bem acabada. Por exemplo, é comum que as skills de música mostrem elementos visuais, como a arte do álbum, enquanto tocam a música em dispositivos com tela. Se o cliente olhar para a tela, vai saber imediatamente qual serviço está tocando o som, além do artista, do álbum e da música. As skills de música rodam por períodos longos, então um recurso visual pode servir como um lembrete constante e não invasivo da experiência para o cliente. Elementos visuais de alta qualidade podem oferecer maneiras interessantes de ensinar o cliente a interagir com a skill. Uma forma é usar dicas, uma mensagem curta (uma frase), na parte inferior da tela, descrevendo como realizar determinadas ações. As mensagens com dicas podem ser específicas para a interação que o cliente estiver fazendo no momento. Por exemplo, em uma skill de meteorologia, vale a pena dar uma dica descrevendo como o cliente pode solicitar mais detalhes sobre a velocidade do vento por hora. Ao usar a tela para passar informações relacionadas, você não atrapalha nem sobrecarrega o cliente com informações dadas por voz.

Ricas experiências de mídia

Ainda que você sempre precise de uma experiência de voz, algumas skills são usadas principalmente para exibir mídias. Com as interfaces multimodais você consegue oferecer vídeos, imagens e animações juntamente com a voz. Pense em uma skill que mostre fotos, vídeos e metadados de fotos de uma conta hospedada pelo usuário. Em um dispositivo sem tela, bastaria ler os metadados ou tocar o trecho do arquivo de áudio ou vídeo. Porém, em um dispositivo com tela, você conseguiria exibir, tocar e pesquisar conteúdos visuais facilmente. Com os dispositivos multimodais, você pode fazer isso, o que não seria possível de outra forma.

Alexa Presentation Language

A Alexa Presentation Language (APL) foi projetada para exibir elementos visuais em todas as categorias de dispositivos multimodais habilitados para Alexa - número que vem crescendo a cada dia - e permite que você inclua gráficos, imagens, apresentações de slides, vídeos e animações para criar uma experiência visual uniforme para sua skill. A APL te dá alcance com uma linguagem de design que vai escalando pelos diversos tipos de dispositivos habilitados para a Alexa sem ter um dispositivo individual como alvo. Além das telas, a APL tem variações para atingir dispositivos multimodais sem tela, como o Echo Dot com relógio. Conforme o número de dispositivos cresce, a APL cresce também. Depois de entender e aprender a usar a Alexa Presentation Language, você terá o conhecimento e as ferramentas necessários para alcançar a maioria dos dispositivos multimodais.

Fluxo da skill com APL

APL Skill Flow diagram

Todas as skills de Alexa seguem um diagrama parecido com o que está acima.

  1. Os clientes falam com o dispositivo habilitado para Alexa.
  2. A fala é enviada ao serviço da Alexa na nuvem, que transforma a voz em texto e este em intenção.
  3. A intenção (com slots) vai para o back-end correto, que formula um speakOutput adequado, com diretivas opcionais. Essas diretivas mandam o dispositivo executar uma ação.
  4. Esta resposta através da Alexa serve para fazer a síntese de voz a partir do speakOutput da skill e exibe elementos visuais no dispositivo, se a diretiva correta (RenderDocument) for enviada.

Alguns eventos podem disparar solicitações ao back-end da skill em resposta às ações do usuário. Eles são similares aos handlers criados para uma intenção ou solicitação de lançamento

Documentos da APL

Um documento da APL mantém todas as definições de elementos de interface do usuário (UI) e a hierarquia visual deles em uma diretiva de RenderDocument. Ele também contém os estilos associados a tais componentes e os pontos onde os dados podem ser vinculados. Os elementos visuais na tela são formados por componentes da APL e layouts. Os componentes são as peças fundamentais da APL e representam pequenos elementos autônomos de interface de usuário (UI) exibidos na janela de visualizaçãoOs layouts são usados como os componentes, mas não são elementos primitivos. Eles combinam outros layouts e componentes primitivos para criar um padrão de UI. Você pode criar seus próprios ou importar layouts pré-definidos de outras fontes. Cada documento da APL tem um “mainTemplate”, que representa o estado inicial da tela da APL a ser exibida. Veja um exemplo de um documento da APL em branco, com todas as propriedades principais:

{
    "type": "APL",
    "version": "1.1",
    "settings": {},
    "theme": "dark",
    "import": [],
    "resources": [],
    "styles": {},
    "onMount": [],
    "graphics": {},
    "commands": {},
    "layouts": {},
    "mainTemplate": {
        "parameters": [
            "payload"
        ],
        "items": []
    }
}

Conforme você for avançando no curso, abordaremos as partes de um documento da APL em mais detalhes. Avance para a seção 2, onde você usará a authoring tool (ferramenta de criação) para criar um documento simples da APL para o LaunchRequest da skill de Cake Time.