Cuando se analiza el coste de la infraestructura de inteligencia artificial, la atención suele centrarse en Nvidia y sus GPU. Sin embargo, la memoria se está convirtiendo en una pieza cada vez más crítica y costosa del rompecabezas. Mientras los hiperescaladores preparan la construcción de nuevos centros de datos valorados en miles de millones de dólares, el precio de los chips DRAM se ha disparado de forma espectacular.
Paralelamente a este encarecimiento, está surgiendo una disciplina cada vez más sofisticada en la orquestación de toda esa memoria. El objetivo es garantizar que los datos correctos lleguen al agente de IA adecuado en el momento preciso. Las empresas que dominen esta técnica podrán ejecutar las mismas consultas con menos tokens, un factor que puede determinar la viabilidad económica de sus operaciones.
La complejidad creciente del ‘caching’
El analista de semiconductores Dan O’Laughlin, en una conversación con Val Bercovici, director de IA de Weka, profundiza en la importancia de los chips de memoria. Aunque su enfoque se centra en el hardware, las implicaciones para la arquitectura del software de IA son enormes. Un punto clave de su análisis es la creciente complejidad de la documentación sobre el almacenamiento en caché de prompts de Anthropic.
«La página de precios de almacenamiento en caché de Anthropic ha pasado de ser muy simple hace unos meses a una enciclopedia de consejos. Ahora detalla cuántas escrituras de caché precomprar, con niveles de 5 minutos o 1 hora, y nada superior. Esto crea oportunidades de arbitraje en torno al precio de las lecturas de caché en función de las escrituras que hayas adquirido previamente.»
– Val Bercovici, Director de IA en Weka
La cuestión fundamental es cuánto tiempo el modelo Claude de Anthropic mantiene un prompt en su memoria caché. Se puede pagar por una ventana de 5 minutos o una tarifa superior por una hora. Acceder a datos que ya están en la caché es mucho más económico, por lo que una gestión adecuada puede generar ahorros significativos. Sin embargo, la complejidad reside en que cada nuevo dato añadido a una consulta puede desplazar otro elemento fuera de esa ventana de caché.
Definición: Prompt Caching
El Prompt Caching (o almacenamiento en caché de prompts) es una técnica de optimización en modelos de lenguaje grandes (LLM). Consiste en almacenar temporalmente los resultados de las partes iniciales de una consulta (el prompt) que se repiten con frecuencia. Cuando se realiza una nueva consulta con un prompt similar, el modelo puede reutilizar los cálculos ya almacenados en lugar de procesar todo desde cero, lo que reduce drásticamente la latencia y el coste computacional (medido en tokens).
El resultado de esta dinámica es claro: la gestión de la memoria en los modelos de IA se convertirá en una de las áreas más importantes de la industria. Las empresas que sobresalgan en esta disciplina obtendrán una ventaja competitiva decisiva.
Perfil: Anthropic
Anthropic es un laboratorio de investigación y seguridad en inteligencia artificial. Su misión es construir sistemas de IA fiables, interpretables y controlables. La compañía es conocida por su familia de grandes modelos de lenguaje, llamada Claude, que compite directamente con las principales ofertas del mercado. Su enfoque en la «IA constitucional» busca alinear los modelos con un conjunto de principios para garantizar un comportamiento seguro y ético.
- Sede: San Francisco, California, EE. UU.
- Fundación: 2021 por Dario Amodei y Daniela Amodei.
- Valoración: Aproximadamente 18.4 mil millones de dólares.
- Inversores Clave: Google, Amazon, Salesforce Ventures, Spark Capital.
- Web: Visitar sitio oficial
- Social: X (Twitter), LinkedIn
Oportunidades en toda la pila tecnológica
Este nuevo campo está lleno de oportunidades de innovación. Startups como TensorMesh ya están trabajando en la capa de la pila conocida como optimización de caché. Pero las oportunidades no terminan ahí.
Más abajo en la pila, existe el desafío de cómo los centros de datos utilizan los diferentes tipos de memoria a su disposición, decidiendo cuándo es óptimo usar chips DRAM en lugar de HBM (High Bandwidth Memory), una discusión técnica pero fundamental para el rendimiento. Más arriba, los usuarios finales están aprendiendo a estructurar sus «enjambres» de modelos para aprovechar cachés compartidos y maximizar la eficiencia.
A medida que las empresas mejoren en la orquestación de la memoria, utilizarán menos tokens y, en consecuencia, la inferencia será más barata. Al mismo tiempo, los propios modelos son cada vez más eficientes en el procesamiento de cada token, lo que reduce aún más el coste. Con la caída de los costes de servidor, muchas aplicaciones de IA que hoy no parecen económicamente viables comenzarán a ser rentables, abriendo la puerta a una nueva ola de innovación.
