Spanish English French German Italian Portuguese
Marketing social
AccueilIAAura de Deepgram donne la parole aux agents IA

Aura de Deepgram donne la parole aux agents IA

Deepgramme s'est fait un nom comme l'une des startups incontournables en matière de reconnaissance vocale. Aujourd'hui, l'entreprise bien financée a annoncé le lancement de Aura, votre nouvelle API de synthèse vocale en temps réel. Aura combine des modèles vocaux très réalistes avec une API à faible latence pour permettre aux développeurs de créer des agents d'IA conversationnels en temps réel. Pris en charge par des modèles de langage étendus (LLM), ces agents peuvent ensuite remplacer les agents du service client dans les centres d'appels et dans d'autres situations en contact avec les clients.

Comme l'a déclaré Scott Stephenson, co-fondateur et PDG de Deepgram, il est depuis longtemps possible d'accéder à d'excellents modèles vocaux, mais ils étaient coûteux et nécessitaient beaucoup de temps de calcul et de traitement. Pendant ce temps, les modèles à faible latence ont tendance à ressembler à des robots. Aura de Deepgram combine des modèles de voix de type humain qui se reproduisent extrêmement rapidement (généralement en moins d'une demi-seconde) et, comme Stephenson l'a souligné à plusieurs reprises, le fait à bas prix.

"Maintenant, tout le monde dit : 'Hé, nous avons besoin de robots à IA vocale en temps réel capables de percevoir ce qui est dit, de le comprendre, de générer une réponse et de la communiquer vocalement'", a-t-il déclaré. Selon lui, une combinaison de précision (qu'il a décrite comme étant en jeu pour un service comme celui-ci), de faible latence et de coûts acceptables est nécessaire pour qu'un produit comme celui-ci en vaille la peine pour les entreprises, en particulier lorsqu'il est combiné avec un accès relativement élevé aux LLM. .

Deepgram affirme que le prix d'Aura bat actuellement pratiquement tous ses concurrents à 0,015 $ pour 1.000 XNUMX caractères. Ce n'est pas si loin du prix proposé par Google pour ses Voix WaveNet à 0,016 pour 1.000 XNUMX caractères et Polly d'Amazon, les voix de Neural voix au même prix de 0,016 $ pour 1.000 XNUMX caractères, mais bien sûr, c'est moins cher. Le niveau le plus élevé d'Amazon est nettement plus cher.

« Vous devez atteindre un très bon prix dans tous les segments, mais vous devez également avoir des latences et des vitesses incroyables, ainsi qu'une précision incroyable. C'est donc une chose vraiment difficile à faire », a déclaré Stephenson à propos de l'approche globale de Deepgram pour développer son produit. "Mais c'est ce sur quoi nous nous sommes concentrés dès le début et c'est pourquoi nous avons travaillé pendant quatre ans avant de lancer quoi que ce soit, parce que nous construisions l'infrastructure sous-jacente pour y arriver."

Offres Aura autour une douzaine des modèles vocaux, tous formés à partir d'un ensemble de données créé par Deepgram avec des acteurs vocaux. Le modèle Aura, comme tous les autres modèles de l'entreprise, a été formé en interne. Voilà à quoi cela ressemble :

Après avoir testé le modèle, même s'il y a parfois des prononciations étranges, c'est vraiment la vitesse qui ressort, en plus du modèle parole-texte de haute qualité existant de Deepgram. Para resaltar la velocidad a la que genera respuestas, Deepgram observa el tiempo que le tomó al modelo comenzar a hablar (generalmente menos de 0,3 segundos) y cuánto tiempo le tomó al LLM terminar de generar su respuesta (que generalmente es poco menos de une seconde).

S'INSCRIT

ABONNEZ-VOUS SUR TRPLANE.COM

Publier sur TRPlane.com

Si vous avez une histoire intéressante sur la transformation, l'informatique, le numérique, etc. qui peut être trouvée sur TRPlane.com, veuillez nous l'envoyer et nous la partagerons avec toute la communauté.

PLUS DE PUBLICATIONS

Activer les notifications OK Non merci