Spanish English French German Italian Portuguese
marketing social
InícioIAAura do Deepgram dá voz aos agentes de IA

Aura do Deepgram dá voz aos agentes de IA

Deepgram tornou-se conhecido como uma das startups de reconhecimento de voz. Hoje, a empresa bem financiada anunciou o lançamento de Aura, sua nova API de conversão de texto em fala em tempo real. Aura combina modelos de voz altamente realistas com uma API de baixa latência para permitir que os desenvolvedores criem agentes de IA conversacionais em tempo real. Apoiados por grandes modelos de linguagem (LLM), esses agentes podem então substituir os agentes de atendimento ao cliente em call centers e outras situações de atendimento ao cliente.

Como disse o cofundador e CEO da Deepgram, Scott Stephenson, há muito tempo é possível acessar excelentes modelos de fala, mas eles são caros e exigem muito tempo de computação e processamento. Enquanto isso, os modelos de baixa latência tendem a parecer robóticos. A Aura da Deepgram combina modelos de voz semelhantes aos humanos que se reproduzem com extrema rapidez (normalmente em menos de meio segundo) e, como Stephenson observou repetidamente, a um preço baixo.

"Agora todo mundo está dizendo: 'Ei, precisamos de robôs de IA de voz em tempo real que possam perceber o que está sendo dito, que possam entendê-lo, gerar uma resposta e comunicá-la por voz'", disse ele. Na sua opinião, é necessária uma combinação de precisão (que ele descreveu como estando em jogo para um serviço como este), baixa latência e custos aceitáveis ​​para fazer com que um produto como este valha a pena para as empresas, especialmente quando combinado com o acesso relativamente elevado aos LLMs. .

Deepgram afirma que o preço do Aura atualmente supera praticamente todos os seus concorrentes em US$ 0,015 por 1.000 caracteres. Isso não está muito longe do preço que o Google está oferecendo por seu Vozes WaveNet em 0,016 por 1.000 caracteres e Polly da Amazon, as vozes de Neural vozes pelo mesmo preço de US$ 0,016 por 1.000 caracteres, mas é claro que é mais barato. O nível mais alto da Amazon é significativamente mais caro.

“É preciso atingir um preço realmente bom em todos os segmentos, mas também é preciso ter latências e velocidades incríveis, além de uma precisão incrível. Portanto, é algo realmente difícil de fazer”, disse Stephenson sobre a abordagem geral da Deepgram para desenvolver seu produto. “Mas foi nisso que nos concentramos desde o início e é por isso que construímos durante quatro anos antes de lançar qualquer coisa, porque estávamos construindo a infraestrutura subjacente para que isso acontecesse.”

Aura oferece ao redor uma dúzia modelos de voz, todos treinados por um conjunto de dados que Deepgram criou em conjunto com dubladores. O modelo Aura, assim como todos os demais modelos da empresa, foi treinado internamente. Isto é o que parece:

Depois de testar o modelo, embora às vezes haja algumas pronúncias estranhas, a velocidade é realmente o que se destaca, além do modelo de fala para texto de alta qualidade existente do Deepgram. Para resaltar la velocidad a la que genera respuestas, Deepgram observa el tiempo que le tomó al modelo comenzar a hablar (generalmente menos de 0,3 segundos) y cuánto tiempo le tomó al LLM terminar de generar su respuesta (que generalmente es poco menos de um segundo).

RELACIONADO

INSCREVA-SE NO TRPLANE.COM

Publicar no TRPlane.com

Se você tiver alguma história interessante sobre transformação, TI, digital, etc. com um lugar no TRPlane.com, envie para nós e compartilharemos com toda a Comunidade.

MAIS PUBLICAÇÕES

Ativar notificações OK Sem gracias