Los Grandes Modelos de Lenguaje (LLM, por sus siglas en inglés) como ChatGPT de OpenAI sufren el mismo problema: inventan cosas.
Los errores van desde extraños hasta inocuos, como afirmar que el puente Golden Gate fue transportado en todo Egipto en 2016, hasta ser altamente problemático, incluso peligroso.
Un alcalde de Australia amenazó recientemente con demandar OpenAI porque ChatGPT afirmó erróneamente que se había declarado culpable de un importante escándalo de soborno. Los trabajos de análisis han descubierto que las alucinaciones de LLM pueden aprovecharse para distribuir paquetes de códigos maliciosos a desarrolladores de software desprevenidos. Y los LLM con frecuencia dan malos consejos médicos y de salud mental, como que el consumo de vino puede «prevenir el cáncer.»
Esta tendencia a inventar «hechos» es un fenómeno conocido como alucinación, y ocurre debido a la forma en que se desarrollan y entrenan los LLM actuales (y todos los modelos de IA generativa).
Modelos de entrenamiento
Los modelos de IA generativa no tienen inteligencia real: son sistemas estadísticos que predicen palabras, imágenes, habla, música u otros datos. Alimentados con una enorme cantidad de ejemplos, generalmente obtenidos de la web pública, los modelos de IA aprenden la probabilidad de que ocurran datos en función de patrones, incluido el contexto de los datos circundantes.
Por ejemplo, dado un correo electrónico típico que termina en el fragmento «Mirando hacia el futuro…», un LLM podría completarlo con «… para recibir respuesta», siguiendo el patrón de los innumerables correos electrónicos en los que ha sido entrenado. Esto no significa que el LLM esté esperando nada.
«El marco actual de formación de LLM implica ocultar o ‘enmascarar’ palabras anteriores para el contexto» y hacer que el modelo prediga qué palabras deben reemplazar a las ocultas, comentó el investigador Sebastian Berns, Ph.D. de la Universidad Queen Mary de Londres. «Esto es conceptualmente similar a usar texto predictivo en iOS y presionar continuamente una de las siguientes palabras sugeridas».
Este enfoque basado en la probabilidad funciona notablemente bien a escala, en su mayor parte. Pero si bien la variedad de palabras y sus probabilidades dan como resultado un texto que tenga sentido, está lejos de ser seguro.
Los LLM pueden generar algo que es gramaticalmente correcto pero sin sentido, por ejemplo, como la afirmación sobre el Golden Gate. O pueden decir mentiras, propagando inexactitudes en sus datos de entrenamiento. O pueden combinar diferentes fuentes de información, incluidas fuentes ficticias, incluso si esas fuentes se contradicen claramente entre sí.
No es malicioso por parte de los LLM. No tienen malicia y los conceptos de verdadero y falso no tienen sentido para ellos. Simplemente han aprendido a asociar ciertas palabras o frases con ciertos conceptos, incluso si esas asociaciones no son precisas.
«Las ‘alucinaciones’ están relacionadas con la incapacidad de un LLM para estimar la incertidumbre de su propia predicción», dijo Berns. “Un LLM generalmente está capacitado para producir siempre un resultado, incluso cuando la entrada es muy diferente de los datos de capacitación. Un LLM estándar no tiene ninguna forma de saber si es capaz de responder de manera confiable una consulta o hacer una predicción”.
Resolviendo las alucinaciones
La pregunta es, ¿se pueden solucionar las alucinaciones? Depende de lo que quieras decir con «resuelto».
Vu Ha, investigador e ingeniero del Instituto Allen de Inteligencia Artificial, afirma que Los LLM “alucinan y siempre alucinarán”. Pero también cree que hay formas concretas de reducir, aunque no eliminar, las alucinaciones, dependiendo de cómo se entrene y despliegue un LLM.
«Considere un sistema de respuesta a preguntas», dijo Ha. «Es posible diseñarlo para que tenga una alta precisión seleccionando una base de conocimientos de preguntas y respuestas de alta calidad, y conectando esta base de conocimientos con un LLM para proporcionar respuestas precisas a través de un proceso similar a la recuperación».
Ha ilustró la diferencia entre un LLM con una base de conocimientos de “alta calidad” a la que recurrir y a uno con una curación de datos menos cuidadosa. Hizo la pregunta «¿Quiénes son los autores del artículo de Toolformer?» (Toolformer es un modelo de IA entrenado por Meta) a través de Bing Chat con tecnología LLM de Microsoft y Bard de Google. Bing Chat enumeró correctamente a los ocho coautores de Meta, mientras que Bard atribuyó erróneamente el artículo a investigadores de Google y Hugging Face.
“Cualquier sistema basado en LLM implementado alucinará. La verdadera pregunta es si los beneficios superan el resultado negativo causado por las alucinaciones”, dijo Ha. En otras palabras, si un modelo no causa ningún daño obvio (por ejemplo, el modelo se equivoca en una fecha o un nombre de vez en cuando), pero por lo demás es útil, entonces podría valer la pena hacer una compensación. «Se trata de maximizar la utilidad esperada de la IA», añadió.
Berns señaló otra técnica que se había utilizado con cierto éxito para reducir las alucinaciones en los LLM: el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF, Reinforcement Learning from Human Feedback). Introducido por OpenAI en 2017, RLHF implica entrenar un LLM, luego recopilar información adicional para entrenar un modelo de «recompensa» y ajustar el LLM con el modelo de recompensa a través del aprendizaje reforzado.
En RLHF, un conjunto de indicaciones de un conjunto de datos predefinido se pasan a través de un LLM para generar texto nuevo. Luego, se utilizan anotadores humanos para clasificar los resultados del LLM en términos de su “utilidad” general: es decir, datos que se utilizan para entrenar el modelo de recompensa. El modelo de recompensa, que en este punto puede tomar cualquier texto y asignarle una puntuación de qué tan bien lo perciben los humanos, se utiliza luego para afinar las respuestas generadas por el LLM.
OpenAI aprovechó RLHF para entrenar varios de sus modelos, incluido GPT-4. Pero ni siquiera el RLHF es perfecto, advirtió Berns.
«Creo que el espacio de posibilidades es demasiado grande para ‘alinear’ completamente los LLM con RLHF», dijo Berns. “Algo que se hace a menudo en el entorno RLHF es entrenar un modelo para producir una respuesta de ‘No sé’, confiando principalmente en el conocimiento del humano y esperando que el modelo lo generalice al conocimiento de su propio dominio. A menudo es así, pero puede ser un poco complicado”.
Filosofías alternativas
Suponiendo que la alucinación no tenga solución, al menos no con los LLM de hoy, ¿es eso algo malo? En realidad, Berns no lo cree así. Los modelos alucinados podrían alimentar la creatividad al actuar como un “socio co-creativo”, postula, dando resultados que tal vez no sean del todo factuales, pero que de todos modos contienen algunos hilos útiles de los que tirar. Los usos creativos de las alucinaciones pueden producir resultados o combinaciones de ideas que quizás no se le ocurran a la mayoría de las personas.
«Las ‘alucinaciones’ son un problema si las declaraciones generadas son objetivamente incorrectas o violan algún valor humano, social o cultural específico, en escenarios en los que una persona confía en el LLM como experto», dijo. “Pero en tareas creativas o artísticas, la capacidad de generar resultados inesperados puede resultar valiosa. Un receptor humano podría sorprenderse con la respuesta a una pregunta y, por lo tanto, verse empujado hacia una determinada dirección de pensamientos que podría conducir a una nueva conexión de ideas”.
Ha argumentó que los LLM de hoy están sujetos a un estándar irrazonable: después de todo, los humanos también “alucinan” cuando recordamos mal o tergiversamos la verdad. Pero con los LLM, cree que experimentamos una disonancia cognitiva porque los modelos producen resultados que parecen buenos en la superficie pero que contienen errores tras una inspección más profunda.
En pocas palabras, los LLM, al igual que cualquier técnica de inteligencia artificial, son imperfectos y, por lo tanto, cometen errores», dijo. “Tradicionalmente, estamos de acuerdo con que los sistemas de IA cometan errores, ya que esperamos y aceptamos imperfecciones. Pero hay más matices cuando los LLM cometen errores”.
De hecho, es posible que la respuesta no esté en cómo funcionan los modelos de IA generativa a nivel técnico. En la medida en que hoy en día no existe una “solución” para las alucinaciones, tratar las predicciones de los modelos con una mirada escéptica parece ser el mejor enfoque.