Spanish English French German Italian Portuguese
Marketing Social
InicioTransformaciónInnovaciónVisión y lenguaje combinados es la clave para una IA más eficaz

Visión y lenguaje combinados es la clave para una IA más eficaz

Dependiendo de la teoría de inteligencia a la que se suscriba, lograr una IA de «nivel humano» requerirá un sistema que pueda aprovechar múltiples modalidades, por ejemplo: sonido, visión y texto, para razonar sobre el mundo. Cuando se muestra una imagen de un camión volcado y una patrulla de policía en una autopista nevada, una IA de nivel humano podría inferir que las condiciones peligrosas de la carretera causaron un accidente. O, corriendo en un robot, cuando se les pide que tomen una lata de refresco del refrigerador, navegan entre personas, muebles y mascotas para recuperar la lata y colocarla al alcance del solicitante.

La IA actual se queda corta. Pero una nueva investigación muestra señales de un progreso alentador, desde robots que pueden descifrar pasos para satisfacer órdenes básicas (p. ej., «coge una botella de agua») hasta sistemas de producción de texto que aprenden de las explicaciones.

El laboratorio de investigación de IA DALL-E mejorado de OpenAI, DALL-E 2, es fácilmente el proyecto más impresionante que emerge de las profundidades de un laboratorio de investigación de IA. Mientras que el DALL-E original demostró una destreza notable para crear imágenes que coincidieran con prácticamente cualquier mensaje (por ejemplo, «un perro con una boina»), DALL-E 2 va más allá. Las imágenes que produce son mucho más detalladas y DALL-E 2 puede reemplazar de manera inteligente un área determinada en una imagen, por ejemplo, insertando una mesa en una foto de un piso de mármol repleto de los reflejos apropiados.

Los investigadores de Google también han detallado un sistema de comprensión visual igualmente impresionante llamado Prosodia impulsada visualmente para texto a voz: VDTTS – en una publicación publicada en el blog de IA de Google. VDTTS puede generar un discurso sincronizado con los labios y con un sonido realista dado nada más que cuadros de texto y video de la persona que habla.

El habla generada por VDTTS, aunque no es un sustituto perfecto para el diálogo grabado, sigue siendo bastante buena, con una expresividad y un ritmo convincentemente parecidos a los humanos. Google ve que algún día se usará en un estudio para reemplazar el audio original que podría haber sido grabado en condiciones ruidosas.

Por supuesto, la comprensión visual es solo un paso en el camino hacia una IA más capaz. Otro componente es la comprensión del lenguaje, que va a la zaga en muchos aspectos, incluso dejando de lado los bien documentados problemas de toxicidad y sesgo de la IA. En un claro ejemplo, un sistema de vanguardia de Google, Pathways Language Model (PaLM), memorizó el 40% de los datos que se usaron para «entrenarlo», según un documento, lo que resultó en que PaLM plagiara texto hasta avisos de derechos de autor en fragmentos de código.

Afortunadamente, DeepMind, el laboratorio de inteligencia artificial respaldado por Alphabet, se encuentra entre los que exploran técnicas para abordar este problema. En un nuevo estudio, los investigadores de DeepMind investigan si los sistemas de lenguaje de IA, que aprenden a generar texto a partir de muchos ejemplos de texto existente (piense en libros y redes sociales), podrían beneficiarse de recibir explicaciones de esos textos. Después de anotar docenas de tareas de lenguaje (p. ej., “Responda estas preguntas identificando si la segunda oración es una paráfrasis apropiada de la primera oración metafórica”) con explicaciones (p. ej., “Los ojos de David no eran literalmente dagas, es una metáfora utilizada para implica que David estaba mirando ferozmente a Paul.”) y evaluando el rendimiento de diferentes sistemas en ellos, el equipo de DeepMind encontró que los ejemplos de hecho mejoran el rendimiento de los sistemas.

El enfoque de DeepMind, si pasa el examen dentro de la comunidad académica, algún día podría aplicarse en robótica, formando los componentes básicos de un robot que puede entender solicitudes vagas (por ejemplo, «tirar la basura») sin instrucciones paso a paso.

RELACIONADOS

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

La moderación de comentarios está activada. Su comentario podría tardar cierto tiempo en aparecer.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

SUSCRÍBETE A TRPLANE.COM

Publica en TRPlane.com

Si tienes alguna historia interesante sobre transformación, IT, digital, etc con cabida en TRPlane.com por favor envíanosla y la compartiremos con toda la Comunidad

MÁS PUBLICACIONES

Activar Notificaciones OK No gracias