A medida que los Modelos Lingüísticos Grandes (LLM) se han vuelto más poderosos, el problema de las ‘alucinaciones’ —respuestas incorrectas o inventadas— ha demostrado ser un obstáculo persistente. Estos errores aparecen incluso en los sistemas más avanzados, y la industria tecnológica sigue buscando la forma más eficaz de detectarlos y eliminarlos.
En este contexto emerge Probably, una startup que busca imponer un nuevo estándar de rigor para validar la información generada por IA, tras asegurar una importante ronda de financiación.
La misión: Precisión determinista para la IA
El fundador de la compañía, Peter Elias, define el objetivo de Probably de forma clara: evitar que las alucinaciones y los errores fácticos lleguen al usuario final. La meta es alcanzar una precisión del 99,99%, un nivel de fiabilidad común en sistemas de software tradicionales (deterministas), pero extremadamente difícil de lograr en el campo de la inteligencia artificial generativa. Para llevar los LLM a este nivel, es necesario replantear muchos de los supuestos fundamentales de la ingeniería de IA.
Perfil: Probably
Probably es una startup de inteligencia artificial enfocada en resolver el problema de la fiabilidad y las alucinaciones en los LLMs. Su tecnología se basa en un sistema de validación que verifica las respuestas de la IA contra datos fácticos, permitiendo el uso de modelos más pequeños y eficientes sin sacrificar la precisión.
- Sede: San Francisco, EE. UU.
- Fundación: 2023 por Peter Elias
- Inversor Principal: Andreessen Horowitz (a16z)
- Redes: LinkedIn
- Web: Visitar sitio oficial
Un ‘traje mecánico’ para la ciencia de datos
El primer producto de Probably es una herramienta de ciencia de datos diseñada para generar respuestas rápidas a partir de conjuntos de datos complejos. Cada resultado que produce viene acompañado de una cita y un registro de auditoría completo que detalla cómo se generó, una práctica que está ganando tracción en el sector para aumentar la transparencia.
Para evitar que los errores se filtren, la compañía ha desarrollado un sofisticado sistema de arnés que Elias describe como un ‘traje mecánico de ciencia de datos’. En este sistema, las respuestas iniciales del LLM se contrastan con un sistema de validación determinista. Si un resultado no coincide con el conjunto de datos de origen, es rechazado. Un aspecto crucial es que el LLM ha sido entrenado específicamente contra este validador, optimizando todo el sistema para ofrecer velocidad y precisión.
Punto Clave
‘Lo que aprendimos al construir esto fue que cuanto mejor sea la ingeniería del arnés, más débil puede ser el modelo. Si se puede refinar el contexto lo suficiente, el modelo no tiene que trabajar mucho para hacer lo correcto. Básicamente, es un ejercicio para reducir la ambigüedad’, afirma Peter Elias.
Eficiencia y reducción de costes
Este enfoque permite que la herramienta de Probably funcione con modelos de IA significativamente más pequeños y menos potentes. Elias señala que la versión actual se ejecuta en un modelo que es ‘cuatro clases más débil que los modelos fronterizos’. Esto tiene una implicación económica y práctica masiva: el sistema puede ejecutarse en hardware local, como un ordenador de escritorio, en lugar de depender de costosos centros de datos. Como resultado, se reduce drásticamente el coste por token asociado al uso de la IA.
Concepto
Las alucinaciones de IA son respuestas generadas por un modelo de inteligencia artificial que no se basan en los datos de entrenamiento o en la realidad. Pueden ser desde imprecisiones fácticas menores hasta la invención completa de información, personas o eventos. Son uno de los mayores desafíos para la adopción de la IA en aplicaciones críticas.
Esta propuesta llega en un momento oportuno, ya que los costes de los tokens están en aumento y muchas empresas reevalúan sus presupuestos destinados a la inteligencia artificial. La visión de Elias no se limita a la ciencia de datos; el mismo motor puede extenderse a otros casos de uso donde la precisión es crítica, como la contabilidad o los servicios médicos.
Elias concluye con una reflexión sobre el mercado: ‘Creo que es realmente interesante que los grandes laboratorios de IA ni siquiera hayan intentado hacer esto. Se les incentiva a no hacerlo, porque ganan dinero cuantas más veces hay que corregir el modelo’.
