Tecnológicas:

Suscribir

De LLM a alucinaciones, sencilla guía de términos comunes de la IA

La inteligencia artificial es un mundo profundo y enrevesado. Los científicos que trabajan en este campo recurren a menudo a la jerga y la jerga para explicar en qué están trabajando. Como resultado, a menudo tenemos que utilizar esos términos técnicos en nuestra cobertura de la industria de la inteligencia artificial.

AGI

La inteligencia artificial general (AGI) es un término nebuloso. Pero en general se refiere a la IA que es más capaz que el ser humano medio en muchas, si no en la mayoría, de las tareas. El consejero delegado de OpenAI, Sam Altman ,describió recientemente la AGI como el «equivalente a un humano medio que podrías contratar como compañero de trabajo». Mientras tanto, los estatutos de OpenAI definen la AGI como «sistemas altamente autónomos que superan a los humanos en la mayoría de los trabajos de alto coste operativo». El concepto de Google DeepMind difiere ligeramente de estas dos definiciones: el laboratorio considera AGI «la IA que es al menos tan capaz como los humanos en la mayoría de las tareas cognitivas». ¿Confundido? No se preocupe: también lo están los expertos que están a la vanguardia de la investigación en IA.

Agente IA

Un agente de IA se refiere a una herramienta que utiliza tecnologías de IA para realizar una serie de tareas en tu nombre -más allá de lo que podría hacer un chatbot de IA más básico-, como archivar gastos, reservar entradas o una mesa en un restaurante, o incluso escribir y mantener código. Sin embargo, como hemos explicado antes, hay muchas piezas móviles en este espacio emergente, por lo que «agente de IA» puede significar cosas diferentes para cada persona. Además, todavía se está construyendo la infraestructura necesaria para desarrollar las capacidades previstas. Pero el concepto básico implica un sistema autónomo que puede recurrir a múltiples sistemas de IA para realizar tareas de varios pasos.

Cadena de razonamiento / pensamiento

Ante una pregunta sencilla, un cerebro humano puede responder sin pensar demasiado: cosas como «¿qué animal es más alto, una jirafa o un gato?». Pero en muchos casos, suele necesitar papel y bolígrafo para dar con la respuesta correcta porque hay pasos intermedios. Por ejemplo, si un granjero tiene gallinas y vacas, y juntas tienen 40 cabezas y 120 patas, es posible que haya que escribir una ecuación sencilla para obtener la respuesta (20 gallinas y 20 vacas).

En el contexto de la IA, el razonamiento en cadena para grandes modelos lingüísticos significa dividir un problema en pasos intermedios más pequeños para mejorar la calidad del resultado final. Normalmente se tarda más en obtener una respuesta, pero es más probable que la respuesta sea correcta, especialmente en un contexto lógico o de codificación. Los modelos de razonamiento se desarrollan a partir de grandes modelos de lenguaje tradicionales y se optimizan para el pensamiento en cadena gracias al aprendizaje por refuerzo.

Deep Learning

Un subconjunto del aprendizaje automático en el que los algoritmos de IA se diseñan con una estructura de red neuronal artificial (RNA) de varias capas. Esto les permite realizar correlaciones más complejas en comparación con los sistemas más sencillos basados en el aprendizaje automático, como los modelos lineales o los árboles de decisión. La estructura de los algoritmos de aprendizaje profundo se inspira en las vías interconectadas de las neuronas del cerebro humano.

Los modelos de IA de aprendizaje profundo son capaces de identificar por sí mismos características importantes en los datos, en lugar de requerir que los ingenieros humanos definan estas características. La estructura también admite algoritmos que pueden aprender de los errores y, mediante un proceso de repetición y ajuste, mejorar sus propios resultados. Sin embargo, los sistemas de aprendizaje profundo requieren muchos puntos de datos para dar buenos resultados (millones o más). También suelen tardar más en entrenarse que los algoritmos de aprendizaje automático más sencillos, por lo que los costes de desarrollo suelen ser más elevados.

Difusión

La difusión es la tecnología en la que se basan muchos modelos de IA para generar arte, música y texto. Inspirados en la física, los sistemas de difusión «destruyen» lentamente la estructura de los datos -por ejemplo, fotos, canciones, etc.- añadiendo ruido hasta que no queda nada. En física, la difusión es espontánea e irreversible: el azúcar disuelto en el café no puede recuperar su forma de cubo. Pero los sistemas de difusión en IA pretenden aprender una especie de proceso de «difusión inversa» para restaurar los datos destruidos, adquiriendo la capacidad de recuperar los datos a partir del ruido.

Destilación

La destilación es una técnica utilizada para extraer conocimientos de un gran modelo de IA con un modelo «maestro-alumno». Los desarrolladores envían peticiones a un modelo maestro y registran las salidas. A veces, las respuestas se comparan con un conjunto de datos para comprobar su precisión. Estos resultados se utilizan para entrenar el modelo del alumno, que se entrena para aproximarse al comportamiento del profesor.

La destilación puede utilizarse para crear un modelo más pequeño y eficiente basado en uno más grande con una pérdida de destilación mínima. Esta es probablemente la forma en que OpenAI desarrolló GPT-4 Turbo, una versión más veloz de GPT-4.

Aunque todas las empresas de IA utilizan la destilación internamente, es posible que también la hayan empleado algunas compañías de IA para ponerse a la altura de los modelos más avanzados. La destilación de un competidor suele violar los términos de servicio de las API de IA y los asistentes de chat.

Ajuste fino

Se trata de dar un entrenamiento extra a un modelo de IA para mejorar su desempeño en una tarea o área más específica que la que se enfocó inicialmente. Esto suele hacerse al agregar nuevos datos especializados (es decir, relacionados con la tarea).

Muchas startups de IA parten de extensos modelos lingüísticos para crear un producto comercial, pero aspiran a aumentar su utilidad para un sector o tarea concretos complementando los ciclos de formación anteriores con un ajuste fino basado en sus propios conocimientos y experiencia específicos del dominio.

GAN

Una GAN, o Generative Adversarial Network (red generativa adversarial), es un tipo de marco de aprendizaje automático que sustenta algunos avances significativos en la IA generativa cuando se trata de producir datos realistas, incluidas (pero no solo) las herramientas de deepfake. Las GAN implican el uso de un par de redes neuronales, una de las cuales se basa en sus datos de entrenamiento para generar una salida que se pasa al otro modelo para que la evalúe. Este segundo modelo discriminador desempeña el papel de clasificador de la salida del generador, lo que le permite mejorar con el tiempo.

La estructura de la GAN se configura como una competición (de ahí lo de «adversario»), en la que los dos modelos están programados para intentar superarse mutuamente: el generador intenta que su resultado supere al discriminador, mientras que éste trabaja para detectar los datos generados artificialmente. Esta competición estructurada puede optimizar los resultados de la IA para que sean más realistas sin necesidad de intervención humana adicional. Aunque los GAN funcionan mejor para aplicaciones más limitadas (como producir fotos o vídeos realistas) que para la IA de propósito general.

Alucinación

Alucinación es el término preferido por la industria de la IA para referirse a los modelos de IA que inventan cosas, es decir, que generan literalmente información incorrecta. Obviamente, es un problema grave para la calidad de la IA.

Las alucinaciones producen resultados de GenAI que pueden ser engañosos e incluso conducir a riesgos en la vida real, con consecuencias potencialmente peligrosas (por ejemplo, una consulta sobre salud que devuelva consejos médicos perjudiciales). Por eso, la letra pequeña de la mayoría de las herramientas GenAI advierte a los usuarios de que verifiquen las respuestas generadas por la IA, aunque tales advertencias suelen ser mucho menos prominentes que la información que las herramientas dispensan con solo pulsar un botón.

Se cree que el problema de que las IA inventen información es consecuencia de las lagunas en los datos de entrenamiento. Especialmente en el caso de las GenAI de propósito general, también conocidas a veces como modelos fundacionales, esto parece complejo de resolver. Sencillamente, no existen datos suficientes para entrenar modelos de IA que resuelvan de forma exhaustiva todas las preguntas que podríamos plantearnos. TL;DR: No hemos inventado a Dios (todavía).

Las alucinaciones contribuyen a impulsar modelos de IA cada vez más especializados y/o verticales, es decir, IA de dominios específicos que requieren conocimientos más limitados, como forma de reducir la probabilidad de lagunas de conocimiento y disminuir los riesgos de desinformación.

Inferencia

La inferencia es el proceso de ejecución de un modelo de IA. Consiste en liberar un modelo para que haga predicciones o saque conclusiones a partir de datos previamente observados. Para ser claros, la inferencia no puede producirse sin entrenamiento; un modelo debe aprender patrones en un conjunto de datos antes de poder extrapolar eficazmente a partir de estos datos de entrenamiento.

Muchos tipos de hardware pueden realizar inferencias, desde los procesadores de los smartphones hasta las GPU más potentes, pasando por los aceleradores de IA diseñados a medida. Pero no todos pueden ejecutar modelos de la misma manera. Los modelos muy grandes tardarían siglos en hacer predicciones, por ejemplo, en un portátil frente a un servidor en la nube con chips de IA de gama alta.

Large language model (LLM)

Los grandes modelos lingüísticos, o LLM, son los modelos de IA que utilizan los asistentes de IA más populares, como ChatGPT, Claude, Gemini de Google, AI Llama de Meta, Microsoft Copilot o Le Chat de Mistral. Cuando se chatea con un asistente de IA, interactúas con un gran modelo lingüístico que procesa tu petición directamente o con la ayuda de diferentes herramientas disponibles, como la navegación web o los intérpretes de código.

Los asistentes de IA y los LLM pueden tener distintos nombres. Por ejemplo, GPT es el gran modelo lingüístico de OpenAI y ChatGPT es el producto del asistente de IA.

Los LLM son redes neuronales profundas que tienen miles de millones de parámetros (o ponderaciones) y que aprenden cómo se relacionan las palabras y frases. Crean una representación del lenguaje, como un mapa de palabras en varias dimensiones.

Estos modelos se crean a partir de la codificación de los patrones que encuentran en miles de millones de libros, artículos y transcripciones. Cuando se le pregunta a un LLM, el modelo genera el patrón más probable que se ajusta a la pregunta. A continuación, evalúa la siguiente palabra más probable después de la última, basándose en lo que se ha dicho antes. Repite, repite y repite.

Red neuronal

Una red neuronal se refiere a la estructura algorítmica de múltiples capas que sustenta el aprendizaje profundo y, más ampliamente, todo el auge de las herramientas de IA generativa tras la aparición de los grandes modelos lingüísticos.

Aunque la idea de inspirarse en las vías densamente interconectadas del cerebro humano como estructura de diseño para los algoritmos de procesamiento de datos se remonta a la década de 1940, el auge mucho más reciente del hardware de procesamiento gráfico (GPU) en la industria de los videojuegos realmente liberó el poder de esta teoría. Estos chips fueron muy adecuados para entrenar algoritmos con muchas más capas que en épocas anteriores. Esto permitió a los sistemas de IA basados en redes neuronales lograr un rendimiento mucho mejor en ámbitos como el reconocimiento de voz, la navegación autónoma y el descubrimiento de fármacos.

Entrenamiento

El desarrollo de IAs de aprendizaje automático implica un proceso conocido como entrenamiento. En términos sencillos, consiste en introducir datos para que el modelo pueda aprender de los patrones y generar resultados útiles.

Las cosas pueden ponerse un poco filosóficas en este punto sobre la IA, ya que, antes del entrenamiento, la estructura matemática que se utiliza como punto de partida para desarrollar un sistema de aprendizaje es sólo un montón de capas y números aleatorios. El modelo de IA sólo toma forma mediante el entrenamiento. Esencialmente, es el proceso por el que el sistema responde a las características de los datos que le permiten adaptar los resultados hacia un objetivo buscado, ya sea identificar imágenes de gatos o producir un haiku a petición.

Es esencial señalar que no todas las IA requieren entrenamiento. Las IA basadas en reglas que se programan para seguir instrucciones predefinidas manualmente, por ejemplo, los chatbots lineales, no lo necesitan. Sin embargo, es probable que estos sistemas de IA estén más limitados que los sistemas de autoaprendizaje (bien entrenados).

Además, el entrenamiento puede ser caro porque requiere muchos datos y, por lo general, los volúmenes de datos necesarios para estos modelos tienden a aumentar.

A veces pueden utilizarse enfoques híbridos para acortar el desarrollo de modelos y ayudar a gestionar los costes. Por ejemplo, para afinar una IA basada en reglas a partir de datos, el desarrollo requiere menos datos, cálculos, energía y complejidad algorítmica que si el desarrollador hubiera empezado desde cero.

Aprendizaje por transferencia

Técnica en la que un modelo de IA previamente entrenado se utiliza como punto de partida para desarrollar un nuevo modelo para una tarea diferente, pero normalmente relacionada, lo que permite volver a aplicar los conocimientos adquiridos en ciclos de entrenamiento anteriores.

El aprendizaje por transferencia puede reducir la eficiencia al acortar el desarrollo de modelos. También puede ser útil cuando los datos de la tarea para la que se desarrolla el modelo son algo limitados. Pero es importante tener en cuenta que este enfoque tiene sus limitaciones. Los modelos que se basan en el aprendizaje por transferencia para adquirir capacidades generalizadas probablemente requerirán un entrenamiento con datos adicionales para obtener buenos resultados en su ámbito de interés.

Ponderaciones

Las ponderaciones son fundamentales para el entrenamiento de la IA, ya que determinan la importancia (o relevancia) que se da a las distintas características (o variables de entrada) en los datos utilizados para entrenar el sistema, dando así forma al resultado del modelo de IA.

Dicho de otro modo, las ponderaciones son parámetros numéricos que definen qué es lo más destacado en un conjunto de datos para la tarea de entrenamiento en cuestión. Cumplen su función multiplicando las entradas. El entrenamiento de un modelo suele comenzar con ponderaciones asignadas al azar. A medida que se desarrolla el proceso, las ponderaciones se ajustan para que el modelo intente llegar a un resultado más cercano al objetivo.

Por ejemplo, un modelo de IA para predecir el precio de la vivienda que se ha entrenado a se entrena con datos inmobiliarios históricos de un lugar determinado. Este modelo podría incluir ponderaciones para características como el número de dormitorios y baños, si una propiedad es unifamiliar o adosada, y si tiene aparcamiento o garaje

Por tanto, las ponderaciones que el modelo asigna a cada uno de estos datos reflejan en qué medida influyen en el valor de una propiedad, basándose en el conjunto de datos dado.

spot_img
Activar Notificaciones OK No gracias