Spanish English French German Italian Portuguese
Marketing Social
InicioTecnologíaInteligencia ArtificialOpenAI presenta Whisper API para la transcripción de voz a texto

OpenAI presenta Whisper API para la transcripción de voz a texto

Para coincidir con el lanzamiento de la API ChatGPT, OpenAI lanzó hoy la API Whisper, una versión alojada del modelo de voz a texto Whisper de código abierto que la compañía lanzó en septiembre.

Con un precio de $ 0.006 por minuto, Whisper es un sistema de reconocimiento de voz automático que, según OpenAI, permite una transcripción «robusta» en varios idiomas, así como la traducción de esos idiomas al inglés. Toma archivos en una variedad de formatos, incluidos M4A, MP3, MP4, MPEG, MPGA, WAV y WEBM.

Innumerables organizaciones han desarrollado sistemas de reconocimiento de voz altamente capaces, que se encuentran en el núcleo del software y los servicios de gigantes tecnológicos como Google, Amazon y Meta. Pero lo que hace que Whisper sea diferente es que se entrenó con 680.000 horas de datos multilingües y «multitarea» recopilados de la web, según el presidente y presidente de OpenAI, Greg Brockman, lo que condujo a un mejor reconocimiento de acentos únicos, ruido de fondo y jerga técnica.

“Lanzamos un modelo, pero eso en realidad no fue suficiente para que todo el ecosistema de desarrolladores se construyera a su alrededor”, dijo Brockman. “La API de Whisper es el mismo modelo grande que puede obtener de código abierto, pero lo hemos optimizado al extremo. Es mucho, mucho más rápido y extremadamente conveniente”.

Para el punto de Brockman, hay muchas barreras cuando se trata de que las empresas adopten tecnología de transcripción de voz. Según Statista en una encuesta de 2020 las empresas citan la precisión, los problemas de reconocimiento relacionados con el acento o el dialecto y el costo como las principales razones por las que no han adoptado tecnología como la tecnología de voz.

Sin embargo, Whisper tiene sus limitaciones, particularmente en el área de la predicción de la «siguiente palabra». Debido a que el sistema se entrenó con una gran cantidad de datos ruidosos, OpenAI advierte que Whisper podría incluir palabras en sus transcripciones que en realidad no se pronunciaron, posiblemente porque está tratando de predecir la siguiente palabra en audio y transcribir la grabación de audio. Además, Whisper no funciona igual de bien en todos los idiomas, ya que sufre una mayor tasa de error cuando se trata de hablantes de idiomas que no están bien representados en los datos de entrenamiento.

Desafortunadamente, eso último no es nada nuevo en el mundo del reconocimiento de voz. Los sesgos han plagado durante mucho tiempo incluso los mejores sistemas, en un estudio de Stanford 2020 sobre sistemas de Amazon, Apple, Google, IBM y Microsoft cometió muchos menos errores (alrededor del 19 %) con usuarios blancos que con usuarios negros.

A pesar de esto, OpenAI considera que las capacidades de transcripción de Whisper se utilizan para mejorar las aplicaciones, los servicios, los productos y las herramientas existentes. Speak, la aplicación de aprendizaje de idiomas impulsada por IA, ya está utilizando la API Whisper para potenciar un nuevo compañero de habla virtual en la aplicación.

Si OpenAI puede ingresar al mercado de voz a texto de manera importante, podría ser bastante rentable para la empresa respaldada por Microsoft. De acuerdo al informe, el segmento podría tener un valor de $ 5,4 mil millones para 2026, frente a $ 2,2 mil millones en 2021.

“Nuestra imagen es que realmente queremos ser esta inteligencia universal”, dijo Brockman. “WRealmente queremos, de manera muy flexible, poder tomar cualquier tipo de datos que tenga, cualquier tipo de tarea que desee realizar, y ser un multiplicador de fuerza en esa atención”.

RELACIONADOS

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

La moderación de comentarios está activada. Su comentario podría tardar cierto tiempo en aparecer.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

SUSCRÍBETE A TRPLANE.COM

Publica en TRPlane.com

Si tienes alguna historia interesante sobre transformación, IT, digital, etc con cabida en TRPlane.com por favor envíanosla y la compartiremos con toda la Comunidad

MÁS PUBLICACIONES

Activar Notificaciones OK No gracias