ChatGPT está evolucionando hacia mucho más que un motor de búsqueda basado en texto, con OpenAI anunciando que está agregando nueva inteligencia basada en voz e imagen.
El popular asistente de IA generativa ha sido una de las mayores historias de éxito tecnológico de los últimos tiempos desde su debut hace unos nueve meses, permitiendo a cualquiera generar ensayos, poemas y resúmenes a partir de simples indicaciones basadas en texto. Pero ahora, ChatGPT está a punto de volverse mucho más interactivo y los usuarios también podrán tener una conversación de voz con el chatbot.
El anuncio se produce en el mismo instante en que Amazon se comprometió a invertir hasta 4 mil millones de dólares en Anthropic, el rival de OpenAI, una medida que constituye una parte de una batalla sobre la IA generativa entre los gigantes tecnológicos del mundo, que incluye a Google, que intenta ponerse al día a través de su chatbot Bard. , Meta adopta un espíritu firme de código abierto para ayudarlo a tomar ventaja, y Microsoft se alinea estrechamente con OpenAI.
Iniciador de conversación
Hoy se marca una evolución notable para el movimiento de IA generativa, con OpenAI combinando el mundo familiar de los asistentes basados en voz con sus potentes modelos de lenguaje grande (LLM).
Por ejemplo, un usuario podrá pedirle verbalmente a ChatGPT que invente un cuento antes de dormir en el momento, con algunas indicaciones vocales para guiar la narrativa. O el usuario puede simplemente hacerle una pregunta y ChatGPT le dará la respuesta de forma hablada.
En otros lugares, los usuarios de ChatGPT también podrán buscar respuestas usando imágenes, por ejemplo, cargando una imagen de algo y pidiendo a ChatGPT que explique qué es o que proporcione instrucciones para completar un objetivo.
La función de voz se habilita mediante una combinación de un nuevo modelo de texto a voz que puede generar voces similares a las humanas a partir de texto y unos segundos de muestra de voz. OpenAI dijo que se asoció con actores de doblaje establecidos para crear cinco voces diferentes, con su sistema de reconocimiento de voz Whisper de código abierto utilizado para transcribir expresiones verbales en texto.
Spotify también fue presentado como socio en el lanzamiento, con el gigante de la transmisión de música presentando una nueva característica bastante interesante para los podcasters que les permite probar su voz y traducir sus programas del inglés al español, francés o alemán, conservando su propia voz original. Sin embargo, parece que OpenAI está teniendo cuidado de no atraer críticas, ya que no pone esta tecnología a disposición de nadie; ha trabajado específicamente con podcasters como Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons y Steven Bartlett para el lanzamiento.
«La nueva tecnología de voz, capaz de crear voces sintéticas realistas a partir de sólo unos segundos de habla real, abre las puertas a muchas aplicaciones creativas y centradas en la accesibilidad», escribió la compañía en una publicación de blog. «Sin embargo, estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraude».
Las nuevas funciones comenzarán a implementarse para los suscriptores de pago Plus y Enterprise próximamente. Para activar las funciones de voz, los usuarios deben dirigirse al menú «configuración» de la aplicación, luego a «nuevas funciones» y optar por las conversaciones de voz. Luego deben tocar el botón de los auriculares en la esquina superior derecha y seleccionar la voz que desean.
La voz se limitará inicialmente a las aplicaciones ChatGPT de Android e iOS en una versión beta opcional, mientras que la búsqueda de imágenes llegará a todas las plataformas por defecto y de forma predeterminada.