La divulgación de una vulneración en los sistemas de OpenAI plantea la preocupación sobre la obtención de conversaciones confidenciales realizadas a través de ChatGPT. Aunque el ataque parece haber sido superficial, este incidente subraya la creciente vulnerabilidad de las empresas de inteligencia artificial ante ciberataques, convirtiéndolas en objetivos atractivos para los piratas informáticos.
El periódico New York Times informó con mayor detalle sobre el hackeo después de que el ex empleado de OpenAI, Leopold Aschenbrenner, lo mencionara recientemente en un podcast. Aschenbrenner calificó el incidente como un “importante problema de seguridad”, sin embargo, fuentes anónimas de la empresa informaron al Times que el hacker solo logró acceder a un foro de discusión interno de empleados.
Es fundamental no minimizar ninguna violación de seguridad, incluso el acto de interceptar conversaciones confidenciales sobre el progreso de OpenAI tiene su relevancia. No obstante, esto dista de equipararse a la intrusión de un pirata informático en los sistemas internos, modelos en fase de desarrollo, planes estratégicos confidenciales, entre otros aspectos.
Sin embargo, esta situación debería generar preocupación, no solo por la posibilidad de que China u otros adversarios se adelanten en la competencia de la inteligencia artificial. El motivo principal de inquietud radica en que las compañías de inteligencia artificial se han erigido como custodios de una vasta cantidad de datos sumamente valiosos.
Hay tres categorías de datos generados por OpenAI y otras empresas de inteligencia artificial: datos de entrenamiento de alta calidad, interacciones extensas de usuarios y datos de clientes.
La información exacta de los datos de entrenamiento utilizados en empresas no se conoce con certeza debido a la reserva con la que estas manejan dicha información. No obstante, es un error simplificarlos como meras recopilaciones de datos web. A pesar de que se emplean scrappers web y conjuntos de datos como Pile, la tarea de transformar estos datos en información útil para el entrenamiento de modelos como GPT-4 es enormemente compleja. Requiere una considerable cantidad de horas de trabajo humano, ya que su automatización es solo parcialmente posible.
La calidad del conjunto de datos es considerada por algunos ingenieros de aprendizaje automático como el factor más crucial en la creación de un modelo de lenguaje efectivo, especialmente en sistemas basados en transformadores. Un modelo entrenado en textos de Twitter y Reddit no alcanzará la misma elocuencia que uno entrenado en trabajos académicos del pasado siglo. OpenAI, al parecer, ha sido puesto en duda por utilizar fuentes de datos de legalidad cuestionable según se informa, como libros con derechos de autor, en su proceso de entrenamiento.
Los conjuntos de datos de entrenamiento creados por OpenAI tienen un gran valor para diversos actores, como empresas, estados adversarios y reguladores, tanto en Estados Unidos como en otros lugares. Es importante para la Comisión Federal de Comercio y los tribunales conocer con precisión los datos utilizados por OpenAI y verificar la veracidad de la información proporcionada.
El vasto conjunto de datos de usuarios de OpenAI es extremadamente valioso, ya que contiene miles de millones de conversaciones con ChatGPT sobre una amplia gama de temas. A diferencia de los datos de búsqueda que solían ser fundamentales para comprender la psique colectiva en la web, ChatGPT proporciona información detallada sobre una población más específica que la de Google, pero con mayor profundidad. Es importante tener en cuenta que, a menos que se opte por no participar, las conversaciones están siendo utilizadas como datos de entrenamiento.
En el contexto de Google, el incremento en las consultas de “aires acondicionados” sugiere un aumento de interés en el mercado. Sin embargo, dichas consultas no reflejan una comprensión completa de las necesidades de los usuarios, su presupuesto, las características de su vivienda, sus preferencias de marca, entre otros aspectos relevantes. Este tipo de información es crucial, ya que Google busca persuadir a los usuarios para que compartan estos detalles mediante interacciones con inteligencia artificial, en lugar de simplemente realizar búsquedas.
La cantidad de interacciones mantenidas por individuos con ChatGPT y la utilidad de dicha información no solo para los desarrolladores de inteligencia artificial, sino también para equipos de marketing, consultores y analistas, es considerable. Esta información se considera valiosa y puede equipararse a una fuente de gran riqueza.
Posiblemente, la categoría de datos más valiosa en el mercado abierto es la que revela cómo los clientes emplean la inteligencia artificial y los datos que han proporcionado para alimentar los modelos.
Numerosas empresas de gran envergadura, así como una gran cantidad de organizaciones más pequeñas, emplean herramientas como OpenAI y las interfaces de programación de aplicaciones (API) de Anthropic para diversas funciones. Por lo general, para que un modelo de lenguaje sea efectivo para ellas, es necesario adaptarlo o permitirle acceder a sus propias bases de datos internas.
El proveedor de inteligencia artificial tiene acceso privilegiado a diversos tipos de información, desde documentos simples como planillas presupuestarias o registros de personal hasta datos sensibles como el código de un software no publicado. El uso que se dé a estas capacidades de la inteligencia artificial y su utilidad son responsabilidad del usuario, considerando que el proveedor de IA cuenta con un acceso especial, al igual que otros productos de software como servicio (SaaS).
Las empresas de inteligencia artificial se ven involucradas en secretos industriales, lo cual representa un riesgo debido a la falta de estandarización y comprensión completa de los procesos en este sector emergente de la industria.
Las empresas de inteligencia artificial, al igual que cualquier proveedor de software como servicio (SaaS), tienen la capacidad de ofrecer niveles de seguridad, privacidad y opciones locales estándares de la industria. En general, prestan sus servicios de manera responsable. Es indudable que las bases de datos privadas y las llamadas a API de los clientes de OpenAI pertenecientes a la lista Fortune 500 están altamente protegidas. Es probable que la empresa sea consciente, o incluso más, de los riesgos asociados con el manejo de datos confidenciales en el ámbito de la inteligencia artificial. La decisión de OpenAI de no informar sobre este ataque es un aspecto que les corresponde evaluar, pero puede generar desconfianza en una empresa que requiere confianza de manera imperiosa.
La seguridad informática es fundamental para proteger la integridad de los sistemas, a pesar de que los ciberdelincuentes buscan constantemente vulnerarlos. No basta con implementar medidas estándar, como configuraciones adecuadas y actualizaciones de software, ya que los adversarios utilizan cada vez más la inteligencia artificial para detectar posibles debilidades en las redes empresariales. Este constante desafío de detectar y prevenir ataques representa un juego continuo de estrategias entre ambas partes.
Las empresas que manejan grandes cantidades de datos personales o de valor comercial han enfrentado y gestionado riesgos similares durante años, lo cual no justifica entrar en pánico. Sin embargo, las empresas de inteligencia artificial representan un objetivo más reciente y potencialmente más atractivo que los servidores empresariales mal configurados o los corredores de datos irresponsables. Incluso un ataque como el mencionado, aunque no haya resultado en una filtración grave conocida, debería generar preocupación entre aquellos que mantienen relaciones comerciales con empresas de inteligencia artificial, ya que estas se encuentran en la mira de posibles ataques. Es importante estar preparado ante la posibilidad de que alguien, o incluso todos, se arriesguen a atacar.