Com a IA generativa aproximando nossa visão para a Alexa, estamos lançando um novo modelo de linguagem avançado e um conjunto de funcionalidades de IA conversacional que proporcionarão uma Alexa ainda mais intuitiva, inteligente e útil.
Nos últimos anos, frequentemente falamos sobre como estamos vivendo uma era de ouro da inteligência artificial (IA). Ideias que pareciam ficção científica há não muito tempo agora são uma realidade — e não há melhor exemplo disso do que a Alexa. O que começou como um esboço em um quadro branco evoluiu para um paradigma computacional totalmente novo — um que mudou fundamentalmente como as pessoas em todo o mundo interagem com a tecnologia em suas casas. Com mais de quinhentos milhões de dispositivos vendidos e dezenas de milhões de interações a cada hora, a Alexa se tornou parte da família em milhões de lares. Sempre pensamos na Alexa como um serviço em evolução, e temos continuamente melhorado desde o dia em que a introduzimos em 2014. Uma missão de longa data tem sido tornar a conversa com a Alexa tão natural quanto conversar com outro ser humano, e com o rápido desenvolvimento da IA generativa, o que imaginamos agora está bem ao nosso alcance. Hoje, estamos empolgados em compartilhar uma prévia do que o futuro reserva.
Esta é uma visão inicial de uma Alexa mais inteligente e conversacional, impulsionada pela IA generativa. É baseada em um novo modelo de linguagem grande (LLM) que foi customizado e especificamente otimizado para interações por voz, e nas coisas que sabemos que nossos clientes adoram — obter informações em tempo real, controle eficiente da casa inteligente e maximização do entretenimento em casa. Acreditamos que isso impulsionará o futuro da Alexa, permitindo-nos aprimorar cinco capacidades fundamentais:
- Conversa
Nos últimos anos e sabemos que ser conversacional vai além de palavras. Em qualquer conversa, processamos toneladas de informações adicionais, como linguagem corporal, conhecimento da pessoa com quem estamos falando e contato visual. Para possibilitar isso com a Alexa, fundimos a entrada dos sensores em um Echo — a câmera, a entrada de voz, sua capacidade de detectar presença — com modelos de IA que podem entender esses sinais não verbais. Também focamos em reduzir a latência para que as conversas fluam naturalmente, sem pausas, e as respostas tenham o comprimento adequado para voz — não o equivalente a ouvir parágrafo após parágrafo lido em voz alta. Quando você pergunta sobre as últimas notícias, recebe uma resposta sucinta com apenas as informações mais relevantes. Se você quiser saber mais, pode fazer um follow-up. - Utilidade no mundo real
Para ser verdadeiramente útil, a Alexa precisa ser capaz de agir no mundo real, o que tem sido um dos desafios não resolvidos com LLMs — como integrar APIs em larga escala e invocá-las de forma confiável para tomar as ações corretas. Este novo LLM da Alexa estará conectado a centenas de milhares de dispositivos e serviços do mundo real via APIs. Ele também aprimora a capacidade da Alexa de processar nuances e ambiguidades — muito parecido com o que uma pessoa faria — e agir de forma inteligente. Por exemplo, o LLM oferece a capacidade de programar Rotinas complexas inteiramente por voz — os clientes podem simplesmente dizer: “Alexa, toda noite de semana às 21h, faça um anúncio de que é hora de dormir para as crianças, diminua as luzes do andar de cima, acenda a luz da varanda e ligue o ventilador no quarto.” A Alexa, então, programará automaticamente essa série de ações para acontecer todas as noites às 21h. - Personalização e contexto
Um LLM para o lar precisa ser personalizado para você e sua família. Assim como uma conversa com outra pessoa seria moldada pelo contexto — como suas conversas anteriores ou o contexto situacional — a Alexa precisa fazer o mesmo. A próxima geração da Alexa será capaz de oferecer experiências únicas com base nas preferências que você compartilhou, nos serviços com os quais você interagiu e nas informações sobre seu ambiente. A Alexa também carrega um contexto relevante ao longo das conversas, da mesma forma que os humanos fazem o tempo todo. As pessoas usam pronomes, frases de efeito e constroem o contexto dos lugares, tempos ou cenas de que falamos. Pergunte à Alexa sobre um museu, e você poderá fazer uma série de perguntas sobre seus horários, exposições e localização sem precisar repetir nenhum dos contextos anteriores, como o nome ou o dia em que planeja ir. - Personalidade
Os clientes nos dizem repetidamente que amam a personalidade da Alexa. Você não quer um companheiro mecânico e robótico em sua casa, e eu diria que a personalidade da Alexa é uma das maiores razões para sua ampla adoção. Como sempre dissemos, a festa de jantar mais chata é aquela em que ninguém tem uma opinião — e, com este novo LLM, a Alexa terá um ponto de vista, tornando as conversas mais envolventes. A Alexa pode lhe dizer quais filmes deveriam ter ganhado um Oscar, celebrar com você quando você responder corretamente a uma pergunta de quiz, ou escrever uma nota entusiástica para você enviar e parabenizar um amigo pela recente formatura. - Confiança
Não deve haver troca entre confiabilidade e desempenho. Clientes ao redor do mundo receberam a Alexa em suas casas e, para ser verdadeiramente útil em suas vidas diárias, devemos continuar criando experiências que eles amam e confiam. Embora a integração da IA generativa traga infinitas novas possibilidades, nosso compromisso em conquistar a confiança dos nossos clientes não mudará. Como com todos os nossos produtos, projetaremos experiências para proteger a privacidade e segurança dos nossos clientes, e para dar a eles controle e transparência.
Para nosso conhecimento, esta é a maior integração de um LLM, serviços em tempo real e um conjunto de dispositivos — e não está limitada a uma guia em um navegador. E estamos apenas começando — com a IA generativa, também podemos aprimorar uma série de componentes centrais da experiência da Alexa.
Um desses componentes é como os clientes iniciam uma interação com a Alexa. Isso será construído sobre a experiência que existe hoje, permitindo que os clientes que optarem por se inscrever no ID Visual iniciem uma conversa com a Alexa simplesmente virando-se para a tela em um Echo Show — sem necessidade de palavra de ativação. O resultado é a experiência de conversa mais natural que já construímos. Em segundo lugar, construímos um novo motor de reconhecimento de fala conversacional (CSR) usando modelos grandes. Como humanos, muitas vezes pausamos durante a conversa para organizar nossos pensamentos ou enfatizar um ponto, e identificar essas dicas é incrivelmente difícil para uma IA. Este novo motor CSR é capaz de se ajustar a essas pausas naturais e hesitações — permitindo uma conversa mais fluida e natural. Finalmente, a IA generativa nos permitiu aprimorar nossa tecnologia de conversão de texto em fala, usando um grande modelo transformador para tornar a Alexa muito mais expressiva e sintonizada com as dicas conversacionais.
O que isso significa é que a Alexa se adaptará às suas dicas e modulará sua resposta e tom de maneira semelhante às conversas humanas. Pergunte à Alexa se seu time ganhou, e ela responderá com uma voz alegre se sim; se perderam, a resposta será mais empática. Pergunte à Alexa sua opinião, e a resposta será mais entusiástica, como se um amigo estivesse compartilhando um ponto de vista.
Para demonstrar o quanto avançamos, aqui está um lembrete de como a Alexa soava quando a lançamos:
E aqui está como a Alexa soará no início do próximo ano:
Combinados, esses aprimoramentos levarão o que já é a melhor IA pessoal do mundo e a tornarão ainda melhor. Tenho usado essas novas capacidades nos últimos meses, e a sensação é tão transformadora quanto a primeira vez que experimentei falar com a Alexa há cerca de uma década. Isso não quer dizer que será perfeito — a Alexa cometerá erros — mas, como sempre, a experiência continuará a melhorar ao longo do tempo.
Fique atento para mais novidades. Enquanto isso, aqui está uma prévia inicial das novas capacidades da Alexa.
Deixe um comentário