Spanish English French German Italian Portuguese
Marketing Social
InicioIAAura de Deepgram da voz a los agentes de IA

Aura de Deepgram da voz a los agentes de IA

Deepgram se ha hecho un nombre como una de las startups preferidas para el reconocimiento de voz. Hoy, la empresa bien financiada anunció el lanzamiento de Aura, su nueva API de conversión de texto a voz en tiempo real. Aura combina modelos de voz muy realistas con una API de baja latencia para permitir a los desarrolladores crear agentes de IA conversacionales en tiempo real. Respaldados por modelos de lenguaje grande (LLM), estos agentes pueden luego sustituir a los agentes de servicio al cliente en centros de llamadas y otras situaciones de cara al cliente.

Como dijo el cofundador y director ejecutivo de Deepgram, Scott Stephenson, durante mucho tiempo ha sido posible acceder a excelentes modelos de voz, pero eran caro y requerían mucho tiempo de cálculo y proceso. Mientras tanto, los modelos de baja latencia tienden a parecer robóticos. Aura de Deepgram combina modelos de voz similares a los humanos que se reproducen extremadamente rápido (generalmente en menos de medio segundo) y, como Stephenson señaló repetidamente, lo hace a un precio bajo.

«Ahora todo el mundo dice: ‘oye, necesitamos robots de inteligencia artificial de voz en tiempo real que puedan percibir lo que se dice, que lo puedan comprender, generar una respuesta, y comunicarla por voz'», dijo. En su opinión, se necesita una combinación de precisión (que describió como algo en juego para un servicio como este), baja latencia y costes aceptables para que un producto como este valga la pena para las empresas, especialmente cuando se combina con el coste relativamente alto de acceder a los LLM.

Deepgram sostiene que el precio de Aura actualmente supera a prácticamente todos sus competidores con 0,015 dólares por 1.000 caracteres. Eso no está tan lejos del precio que Google ofrece por su Voces WaveNet a 0,016 por 1.000 caracteres y de Polly de Amazon, las voces de Neural voces al mismo precio de 0,016 dólares por cada 1.000 caracteres, pero, por supuesto, es más barato. El nivel más alto de Amazon es significativamente más caro.

«Tienes que alcanzar un precio realmente bueno en todos los segmentos, pero también debes tener latencias y velocidades asombrosas, y también una precisión asombrosa. Así que es algo realmente difícil de lograr”, dijo Stephenson sobre el enfoque general de Deepgram para desarrollar su producto. «Pero esto es en lo que nos enfocamos desde el principio y es por eso que construimos durante cuatro años antes de lanzar algo, porque estábamos construyendo la infraestructura subyacente para hacerlo realidad».

Aura ofrece alrededor una docena modelos de voz, todos los cuales fueron entrenados por un conjunto de datos que Deepgram creó junto con actores de voz. El modelo Aura, al igual que todos los demás modelos de la empresa, fue entrenado internamente. Así es como suena:

Tras pruebas sobre el modelo, aunque a veces hay algunas pronunciaciones extrañas, la velocidad es realmente lo que destaca, además del modelo de voz a texto de alta calidad existente de Deepgram. Para resaltar la velocidad a la que genera respuestas, Deepgram observa el tiempo que le tomó al modelo comenzar a hablar (generalmente menos de 0,3 segundos) y cuánto tiempo le tomó al LLM terminar de generar su respuesta (que generalmente es poco menos de un segundo).

RELACIONADOS

SUSCRÍBETE A TRPLANE.COM

Publica en TRPlane.com

Si tienes alguna historia interesante sobre transformación, IT, digital, etc con cabida en TRPlane.com por favor envíanosla y la compartiremos con toda la Comunidad

MÁS PUBLICACIONES

Activar Notificaciones OK No gracias