Tecnológicas:

Suscribir

EleutherAI lanza un conjunto masivo de datos abiertos para IA

EleutherAI, organización especializada en investigación en inteligencia artificial, ha anunciado la publicación de Common Pile v0.1, un extenso conjunto de datos compuesto exclusivamente por contenido con licencia abierta y de dominio público, destinado al entrenamiento de modelos de lenguaje de gran escala.

El desarrollo de esta recopilación ha sido llevado a cabo durante un periodo aproximado de dos años, en colaboración con diversas startups tecnológicas del ámbito de la IA —entre ellas Poolside y Hugging Face— así como con instituciones académicas internacionales. Con un volumen total de 8 terabytes, Common Pile v0.1 ha sido utilizado para entrenar dos modelos propios de EleutherAI, denominados Comma v0.1-1T y Comma v0.1-2T. Según la organización, ambos modelos alcanzan niveles de rendimiento equiparables a los de sistemas entrenados con datos protegidos por derechos de autor y recopilados sin licencia explícita.

En el contexto actual, múltiples compañías tecnológicas se enfrentan a litigios por el uso de material protegido en sus procesos de entrenamiento de modelos de IA. Aunque algunas han establecido acuerdos de licencia con determinados proveedores de contenido, la mayoría continúa invocando la doctrina del “uso justo” de la legislación estadounidense como escudo legal frente a reclamaciones por la utilización de obras sin autorización.

EleutherAI ha expresado preocupación por el impacto negativo que estos procesos judiciales están teniendo en la transparencia de la investigación en IA. La organización sostiene que la creciente opacidad en torno a los datos empleados en los modelos impide evaluar adecuadamente su funcionamiento, calidad y posibles sesgos. En una publicación en la plataforma Hugging Face, Stella Biderman, directora ejecutiva de EleutherAI, señaló que las demandas “no han alterado sustancialmente las prácticas de recopilación de datos, pero sí han reducido de manera significativa la apertura con la que las empresas comparten información sobre sus modelos”. Asimismo, mencionó que algunos investigadores de compañías privadas han reconocido que dichas disputas legales les han impedido divulgar avances científicos en áreas críticas relacionadas con datos.

La construcción de Common Pile v0.1 se ha realizado en coordinación con asesores legales y recurriendo a fuentes verificables, como los 300.000 libros de dominio público digitalizados por la Biblioteca del Congreso de Estados Unidos y el Internet Archive. Además, se ha utilizado el modelo de código abierto Whisper, desarrollado por OpenAI, para transcribir contenido procedente de audio a texto.

Ambos modelos derivados del conjunto —Comma v0.1-1T y Comma v0.1-2T, cada uno con 7.000 millones de parámetros— han sido entrenados con solo una parte del total de datos disponibles. Aun así, han mostrado un rendimiento competitivo en pruebas de programación, razonamiento matemático y comprensión de imágenes, superando referencias como el primer modelo LLaMA de Meta en determinadas métricas. Los parámetros, también conocidos como pesos, constituyen los componentes internos del modelo que determinan su comportamiento y sus resultados.

Desde EleutherAI se ha defendido que no existe evidencia concluyente que justifique la dependencia de textos no licenciados para lograr modelos de alto rendimiento. Según la organización, el aumento en la disponibilidad de datos abiertos y de dominio público permitirá mejorar progresivamente la calidad de los modelos entrenados bajo criterios éticos y legales.

Este lanzamiento supone también una revisión de prácticas anteriores de la organización, que en el pasado publicó The Pile, un conjunto de datos que incluía materiales con derechos de autor y que ha sido objeto de controversia en la comunidad. EleutherAI ha manifestado su compromiso de impulsar en adelante la publicación regular de datasets abiertos, en colaboración con sus socios de investigación e infraestructura, con el fin de fomentar una inteligencia artificial más transparente, accesible y responsable.

spot_img
Activar Notificaciones OK No gracias