El modelo de IA de conversión de texto a voz más grande hasta el momento muestra "habilidades emergentes"

Usuarios del Club TRPlane

Para ver este contenido, es necesario estar registrado. Haz clic en el botón para ver todos los planes.

Investigadores de Amazon han entrenado el modelo de conversión de texto a voz más grande jamás creado hasta el momento y, según afirman, exhibe cualidades «emergentes» que mejoran su capacidad para pronunciar incluso oraciones complejas de forma natural. El avance podría ser lo que la tecnología necesita para escapar de este complejo valle.

Estos modelos siempre iban a crecer y mejorar, pero los investigadores esperaban específicamente ver el tipo de salto en la capacidad que observamos una vez que los modelos de lenguaje superaban cierto tamaño. Por razones que desconocemos, una vez que los LLM superan cierto punto, comienzan a ser mucho más robustos y versátiles, capaces de realizar tareas para las que no fueron capacitados.

Eso no quiere decir que estén ganando sensibilidad ni nada por el estilo, solo que pasado cierto punto su desempeño en ciertas tareas conversacionales de IA crece como una asíntota (palo de hockey=. El equipo de Amazon AGI (no es ningún secreto a qué disparan) pensó que podría suceder lo mismo a medida que crecieran los modelos de conversión de texto a voz, y su investigación sugiere que, de hecho, este es el caso.

El nuevo modelo se llama Gran TTS Adaptable y Transmitible con habilidades Emergentes (Big Adaptive Streamable TTS with Emergent abilities), que han transformado en la abreviatura BASE TTS. La versión más grande del modelo utiliza 100.000 horas de discurso de dominio público, el 90% de las cuales es en inglés y el resto en alemán, holandés y español.

Con 980 millones de parámetros, BASE-large parece ser el modelo más grande en esta categoría. También entrenaron modelos de parámetros de 400M y 150M basados en 10,000 y 1,000 horas de audio respectivamente, para comparar; la idea es que, si uno de estos modelos muestra comportamientos emergentes pero otro no, tienes un rango donde comienzan esos comportamientos para emerger.

Resulta que el modelo de tamaño mediano mostró el salto en la capacidad que el equipo estaba buscando, no necesariamente en la calidad del habla ordinaria (se revisa mejor pero solo por un par de puntos), sino en el conjunto de habilidades emergentes que observaron y midieron. Aquí hay ejemplos de texto, originalmente en inglés, complicado mencionado en sus notas:

Nombres compuestos: Los Beckham decidieron alquilar una encantadora casa de vacaciones en el campo, construida en piedra.
Emociones: «¡Oh Dios mío! ¿Realmente vamos a las Maldivas? ¡Eso es increíble!» Jennie chilló, saltando sobre las puntas de sus pies con alegría incontenible.
Palabras extranjeras: «Señor. Henry, famoso por su mise en place, orquestó una comida de siete platos, cada uno de los cuales era una pieza de resistencia.
Paralingüística (es decir, no palabras legibles): “Shh, Lucy, shhh, no debemos despertar a tu hermanito”, susurró Tom, mientras pasaban de puntillas por la guardería.
Puntuaciones: Recibió un extraño mensaje de texto de su hermano: ‘Emergencia en casa; llama lo antes posible! Mamá y papá están preocupados…#asuntosfamiliares.’
Preguntas: Pero la pregunta sobre el Brexit persiste: después de todas las pruebas y tribulaciones, ¿encontrarán los ministros las respuestas a tiempo?
Complejidades sintácticas: La película que protagonizó De Moya, recientemente galardonado con el premio a la trayectoria, en 2022 fue un éxito de taquilla, a pesar de las críticas mixtas.

“Estas oraciones están diseñadas para contener tareas desafiantes: analizar oraciones de difícil comprensión, poner énfasis en sustantivos compuestos largos, producir un habla emocional o susurrada, o producir los fonemas correctos para palabras extranjeras.
palabras como “qi” o puntuaciones como “@”, ninguna de las cuales BASE TTS está explícitamente entrenada para realizar”, escriben los autores.

Estas características normalmente hacen tropezar los motores de conversión de texto a voz, que pronuncian mal, se saltan palabras, usan entonaciones extrañas o cometen algún otro error garrafal. BASE TTS todavía tuvo problemas, pero lo hizo mucho mejor que sus contemporáneos: modelos como Tortoise y VALL-E.

Hay un montón de ejemplos de estos textos difíciles pronunciados con bastante naturalidad por el nuevo modelo en el sitio construido para mostrarlo. Por supuesto, estos fueron elegidos por los investigadores, por lo que necesariamente son seleccionados cuidadosamente, pero de todos modos es impresionante.

Debido a que los tres modelos BASE TTS comparten una arquitectura, parece claro que el tamaño del modelo y la extensión de sus datos de entrenamiento parecen ser la causa de la capacidad del modelo para manejar algunas de las complejidades anteriores. Hay que tener en cuenta que esto sigue siendo un modelo y un proceso experimental, no un modelo comercial. Investigaciones posteriores tendrán que identificar el punto de inflexión para la capacidad emergente y cómo entrenar e implementar el modelo resultante de manera eficiente.

En particular, este modelo es «transmitible», como su nombre lo indica, lo que significa que no necesita generar oraciones completas a la vez, sino que avanza momento a momento a una tasa de bits relativamente baja. El equipo también intentó empaquetar los metadatos del habla, como la emotividad, la prosodia, etc., en una secuencia separada de bajo ancho de banda que podría acompañar al audio básico.

Parece que los modelos de conversión de texto a voz pueden tener un momento decisivo en 2024, ¡justo a tiempo para las elecciones! Pero no se puede negar la utilidad de esta tecnología, en particular para la accesibilidad. El equipo señala que se negó a publicar la fuente del modelo y otros datos debido al riesgo de que los malos actores se aprovechen de él. Sin embargo, se revelará en algún momento próximo todo el secreto.

Busque su consulta

Enlaces útiles

Tecnológicas:

Categorías

Enlaces útiles

El modelo de IA de conversión de texto a voz más grande hasta el momento muestra «habilidades emergentes»

Usuarios del Club TRPlane

Documentos judiciales revelan los planes de OpenAI y Jony Ive para un dispositivo de IA

Google apuesta por la energía de fusión y firma un acuerdo de compra con Commonwealth Fusion Systems

Paddle y RevenueCat lanzan pagos web para apps en iOS tras el cambio legal a Apple

El auge de Nvidia como inversor: un análisis de sus inversiones en startups de IA

El capital riesgo en mercados emergentes se desplomó más del 40% el año pasado

Desde Skims hasta Stripe: startups que probablemente no tendrán IPO este año

Pesa abre nuevos mercados para mantener el flujo de remesas a las economías emergentes

Categorías

Enlaces útiles

¿Listo para suscribirte?

Enlaces útiles

Categorías

Enlaces útiles

El modelo de IA de conversión de texto a voz más grande hasta el momento muestra «habilidades emergentes»

Usuarios del Club TRPlane

Documentos judiciales revelan los planes de OpenAI y Jony Ive para un dispositivo de IA

Google apuesta por la energía de fusión y firma un acuerdo de compra con Commonwealth Fusion Systems

Paddle y RevenueCat lanzan pagos web para apps en iOS tras el cambio legal a Apple

El auge de Nvidia como inversor: un análisis de sus inversiones en startups de IA

El capital riesgo en mercados emergentes se desplomó más del 40% el año pasado

Desde Skims hasta Stripe: startups que probablemente no tendrán IPO este año

Pesa abre nuevos mercados para mantener el flujo de remesas a las economías emergentes

.tdi_195{margin-bottom:10px!important} .tdi_195{color:var(--trp-white);font-family:var(--trp-sans-serif)!important;font-size:18px!important;line-height:1.2!important}@media (min-width:768px) and (max-width:1018px){.tdi_195{font-size:16px!important}}Categorías

.tdi_199{margin-bottom:10px!important} .tdi_199{color:var(--trp-white);font-family:var(--trp-sans-serif)!important;font-size:18px!important;line-height:1.2!important}@media (min-width:768px) and (max-width:1018px){.tdi_199{font-size:16px!important}}Enlaces útiles

.tdi_202{margin-bottom:10px!important} .tdi_202{color:var(--trp-white);font-family:var(--trp-sans-serif)!important;font-size:18px!important;line-height:1.2!important}@media (min-width:768px) and (max-width:1018px){.tdi_202{font-size:16px!important}}¿Listo para suscribirte?

Categorías

Enlaces útiles

¿Listo para suscribirte?