En la actualidad, se está explorando la búsqueda de nuevas arquitecturas en el campo de la inteligencia artificial, tras un largo periodo de predominio de la forma de IA denominada Transformer.
Los expertos de esta arquitectura Transformer son fundamentales en el desarrollo de modelos de generación de contenido audiovisual, como el modelo Sora de OpenAI, y son esenciales en la creación de modelos de generación de texto como Claude de Anthropic, Gemini de Google y GPT-4o. Sin embargo, actualmente se enfrentan a desafíos técnicos, especialmente en el ámbito computacional.
Los transformadores, cuando se ejecutan en hardware comercial, no son óptimos para el procesamiento y análisis de grandes volúmenes de datos, lo que conlleva costes elevados y un aumento potencialmente insostenible en la demanda de energía. Este incremento en la demanda de energía surge a medida que las empresas desarrollan y expanden su infraestructura para cumplir con las necesidades de los transformadores.
Durante este mes, se ha presentado una arquitectura prometedora denominada entrenamiento en tiempo de prueba (TTT, Test-Time-Training), la cual fue desarrollada a lo largo de un período de dieciocho meses por un equipo de investigadores de Stanford, UC San Diego, UC Berkeley y Meta. Según el equipo de investigación, los modelos TTT no solo tienen la capacidad de procesar una mayor cantidad de datos en comparación con la arquitectura Transformer, sino que también logran hacerlo con un consumo de potencia de procesamiento significativamente menor.
El estado oculto en la arquitectura Transformer
En arquitectura Transformer, un elemento esencial es el concepto de «estado oculto», el cual consiste en una extensa colección de datos. Durante el procesamiento de información, el Transformer va incorporando nuevas entradas al estado oculto con el fin de retener la información relevante. Por ejemplo, al analizar un texto, el estado oculto contendrá representaciones de palabras o fragmentos de palabras.
Yu Sun, investigador posdoctoral en Stanford y coautor del estudio sobre TTT, explicó que al considerar a un Transformer como una entidad inteligente, la tabla de búsqueda, que representa su estado oculto, puede ser equiparada al cerebro del transformador. Según Sun, este componente especializado es fundamental para las capacidades reconocidas de los transformadores, como el aprendizaje contextual.
El estado oculto es un elemento fundamental en la potencia de los transformadores, aunque al mismo tiempo impone limitaciones. Para emitir una única palabra acerca de un libro recién leído, el modelo debe consultar toda su tabla de búsqueda, lo cual representa una carga computacional tan intensiva como la lectura completa del libro.
Posteriormente, Sun y su equipo propusieron sustituir el estado oculto por un modelo de aprendizaje automático, similar a muñecas rusas de inteligencia artificial, es decir, un modelo dentro de otro modelo.
El modelo de aprendizaje automático interno del modelo TTT difiere de la tabla de búsqueda de un transformador en su capacidad de no aumentar su tamaño a medida que procesa datos adicionales. En lugar de ello, codifica los datos en variables representativas llamadas ponderaciones, lo que contribuye a la alta eficiencia de los modelos TTT. A pesar de la cantidad de datos procesados, el tamaño del modelo interno de un modelo TTT permanece constante.
Sun considera que los futuros modelos TTT podrían ser capaces de procesar eficientemente una gran cantidad de datos, que incluyen palabras, imágenes, grabaciones de audio y videos, lo cual superaría significativamente las capacidades de los modelos actuales.
Según Sun, el sistema desarrollado tiene la capacidad de analizar un libro y generar un resumen sin la necesidad de recurrir a la complejidad computacional de revisar el libro en múltiples ocasiones. Por otro lado, los modelos de video basados en transformadores, como Sora, presentan limitaciones en su capacidad de procesamiento, restringiéndose a tan solo 10 segundos de video debido a su estructura de ‘cerebro’ basada en una tabla de búsqueda. El objetivo final del proyecto es la creación de un sistema capaz de analizar videos extensos de manera similar a la percepción visual humana.
Escepticismo en relación a los modelos TTT
¿Es posible que los modelos TTT lleguen a reemplazar a los modelos Transformer en el futuro? Aunque esta posibilidad existe, en la actualidad resulta prematuro asegurarlo con total certeza.
Los modelos TTT no constituyen una alternativa directa a los Transformer. En este momento, los investigadores han desarrollado únicamente dos modelos reducidos para su estudio, lo cual dificulta la comparación del método TTT con algunas de las implementaciones de Transformer a mayor escala que actualmente se encuentran disponibles.
El profesor titular del departamento de informática del King’s College de Londres, Mike Cook, expresó su opinión sobre la innovación de TTT, destacando su interés y la importancia de respaldar las afirmaciones de eficiencia con datos. Cook no participó en la investigación y señaló que no puede determinar si esta nueva arquitectura es superior a las existentes.
El rápido avance de la investigación en alternativas al modelo Transformer indica un creciente reconocimiento de la importancia de un avance revolucionario en este aspecto.
Durante esta semana, la empresa emergente de inteligencia artificial Mistral presentó un nuevo modelo denominado Codestral Mamba, el cual se fundamenta en una alternativa al Transformer conocida como Modelos de Espacio de Estados (SSM, Selective-State-Spaces). Se ha observado que los SSM, al igual que los modelos TTT, muestran una mayor eficiencia computacional en comparación con los transformadores, lo que les permite manejar volúmenes más grandes de datos.
AI21 Labs está investigando los Sistemas de Modelado de Secuencias (SSM), Cartesia que fue una de las primeras empresas en desarrollar SSM, junto con los homónimos de Codestral Mamba, Mamba y Mamba-2.
En caso de lograr estos esfuerzos, la inteligencia artificial generativa podría volverse más accesible y difundida de lo que es en la actualidad.