¿Cuántos modelos de IA son demasiados? Depende de cómo se mire, pero 10 por semana probablemente sea demasiado. Eso es aproximadamente se han implementado ultimamente, y es cada vez más difícil decir si estos modelos se comparan entre sí y cómo, si es que alguna vez fue posible para empezar. Entonces, ¿cuál es el punto?
Estamos en un momento extraño en la evolución de la IA, aunque, por supuesto, ha sido bastante extraño durante todo el tiempo. Estamos viendo una proliferación de modelos grandes y pequeños, desde desarrolladores especializados hasta grandes y bien financiados.
Repasando la lista de los últimos añadidos, con una breve distinción entre los modelos, son los siguientes.
- LLaMa-3: El último modelo emblemático de lenguaje grande “abierto” de Meta. El término «abierto» es controvertido en este momento, pero de todos modos este proyecto es ampliamente utilizado por la comunidad.
- Mistral 8×22: Un modelo de “mezcla de expertos”, en términos generales, de un equipo francés que ha rehuido la apertura del modelo que alguna vez abrazaron.
- Stable Diffusion 3 Turbo. Un SD3 actualizado para combinar con la nueva API de estabilidad abierta. Tomar prestado «turbo» de la nomenclatura de modelos de OpenAI es un poco extraño, pero está bien.
- Adobe Acrobat IA Assistant: “Habla con tus documentos” del gigante de documentos. Es bastante seguro, sin embargo, de que esto es principalmente un envoltorio para ChatGPT.
- Reka Core: De un pequeño equipo anteriormente empleado por Big AI, un modelo multimodal creado desde cero que es al menos nominalmente competitivo con los grandes.
- Idefics2: Un modelo multimodal más abierto, construido sobre modelos recientes y más pequeños de Mistral y Google.
- OLMo-1.7-7B: Una versión más grande del LLM de AI2, una de las más abiertas que existen, y un trampolín hacia un futuro modelo a escala de 70B.
- Pile-T5: Una versión del viejo del modelofiable T5 ajustado en la base de datos de código Pile. El mismo T5 conocido y amado, pero con mejor codificación.
- Cohere Compass: Un “modelo embebido” (no hay que preocuparse si no se conoce este concepto, es uno más) enfocado en incorporar múltiples tipos de datos para cubrir más casos de uso.
- Imagine Flash: El modelo de generación de imágenes más novedoso de Meta, que se basa en un nuevo método de generación para acelerar la difusión sin comprometer demasiado la calidad.
- Limitless: “Una IA personalizada impulsada por lo que se ha visto, dicho u oído. Es una aplicación web, una aplicación para Mac, una aplicación para Windows o un dispositivo wearable”.
Son 11, porque se anunció uno nuevo se escribía esta entrada. Y estos no son todos los modelos lanzados o anticipados esta semana. Son solo los mas vistos o discutidos. Si se flexibilizan un poco las condiciones de inclusión, habría decenas: algunos modelos existentes afinados, algunos combos como Idefics 2, algunos experimentales o de nicho, etcétera. Sin mencionar las nuevas herramientas de esta semana para construcción (torchtune) o en pugna con la IA generativa (Glaze 2.0)
¿Qué hacer con esta avalancha interminable? No pueden “revisarse” todos. Entonces, ¿cómo ayudar al mercado a comprender y mantenerse al día con todas estas cosas?
La verdad es que no es necesario seguir el ritmo. Algunos modelos como ChatGPT y Gemini han evolucionado hasta convertirse en plataformas web completas, que abarcan múltiples casos de uso y puntos de acceso. Otros grandes modelos de lenguaje como LLaMa u OLMo, aunque técnicamente comparten una arquitectura básica, en realidad no cumplen la misma función. Están destinados a vivir en segundo plano como un servicio o componente, no en primer plano como una marca reconocible.
Existe cierta confusión deliberada sobre estas dos cosas, porque los desarrolladores de los modelos quieren tomar prestada un poco de la fanfarria asociada con los principales lanzamientos de plataformas de IA, como su GPT-4V o Gemini Ultra. Todo el mundo quiere que se visualice que su versión es clave. Y aunque probablemente sea importante para alguien, es casi seguro que ese alguien no seas el común de los usuarios.
Hay que imaginarlo como, por ejemplo, otra categoría amplia y diversa: la de los automóviles. Cuando se inventaron por primera vez, simplemente se compraba «un coche». Luego, un poco más tarde, se elegía entre un coche grande, un coche pequeño y un tractor. Hoy en día, se lanzan cientos de coches cada año, pero probablemente no es necesario estar al tanto de uno de cada diez de ellos, porque nueve de cada diez no son el coche que se necesita o ni siquiera un coche tal como se entiende el término. De manera similar, se pasará de la era de la IA grande/pequeña/tractora hacia la era de la proliferación, e incluso, ni los especialistas en IA, nopueden mantenerse al día y probar todos los modelos que están surgiendo.
La otra cara de la historia es que ya estábamos en esta etapa mucho antes de que aparecieran ChatGPT y los otros grandes modelos. Mucha menos gente leía sobre esto hace 7 u 8 años, pero se cubría de todos modos porque era claramente una tecnología esperando su momento decisivo. Constantemente se publicaban artículos, modelos e investigaciones, y conferencias como SIGGRAPH y NeurIPS que estaban llenas de ingenieros de aprendizaje automático que comparaban notas y aprovechaban el trabajo de los demás.
Esa actividad sigue en marcha. Pero debido a que la IA se ha convertido en un gran negocio, posiblemente el mayor en tecnología en este momento, estos desarrollos han recibido peso adicional, ya que la gente siente curiosidad por saber si uno de estos podría representar un salto tan grande sobre ChatGPT como lo fue ChatGPT sobre sus predecesores.
La simple verdad es que ninguno de estos modelos será un gran paso, ya que el avance de OpenAI se basó en un cambio fundamental en la arquitectura de aprendizaje automático que todas las demás empresas han adoptado y que no ha sido reemplazada. Mejoras incrementales como un punto o dos mejores en un punto de referencia sintético, o un lenguaje o imágenes ligeramente más convincentes, es todo lo que podemos esperar por el momento.
¿Eso significa que ninguno de estos modelos importa? Ciertamente importan. No se pasa de la versión 2.0 a la 3.0 sin 2.1, 2.2, 2.2.1, etc. Y a veces esos avances son significativos, abordan deficiencias graves o exponen vulnerabilidades inesperadas. Se intenta cubrir los interesantes, pero eso es sólo una fracción del número total.
No te preocupes: cuando aparezca uno importante, se sabrá. Será tan obvio para usted como lo es para el resto del mercado.