The Pile, un dataset open source de modelado de lenguaje de 825 GiB (2020)

(pile.eleuther.ai)

1 puntos por GN⁺ 2024-03-09 | 1 comentarios | Compartir por WhatsApp

A medida que la amplitud de las fuentes de datos se volvió más importante en el entrenamiento de modelos de lenguaje a gran escala, The Pile se publicó como un conjunto de entrenamiento abierto de 825 GiB que agrupa 22 datasets de alta calidad
Su diseño central consiste en combinar múltiples fuentes como libros, código, páginas web, registros de chat y artículos académicos para aumentar la generalización entre dominios
Los modelos entrenados con The Pile mostraron mejoras moderadas en benchmarks existentes de modelado de lenguaje, y mejoras significativas en Pile BPB
Como Pile BPB maneja conjuntamente texto de múltiples dominios, se usa para comprobar una capacidad de modelado de texto más amplia que el rendimiento sobre un solo corpus
El leaderboard marca con * la posible duplicación con el conjunto de prueba, y Zero-shot significa que no todos los componentes de The Pile estuvieron incluidos en los datos de entrenamiento

Composición y distribución de The Pile

The Pile es un dataset diverso y open source de modelado de lenguaje de 825 GiB
Está construido combinando 22 datasets más pequeños y de alta calidad en uno solo
Los archivos de descarga están alojados en the Eye
Si usas The Pile o tienes un modelo evaluado con The Pile, puedes avisar a EleutherAI
Si usas The Pile o alguno de sus componentes, debes citar el siguiente artículo
- The Pile: An 800GB Dataset of Diverse Text for Language Modeling
  - preprint de arXiv arXiv:2101.00027, 2020

Rol como conjunto de entrenamiento y benchmark

Especialmente en los modelos de gran escala, la diversidad de las fuentes de datos mejora el conocimiento general entre dominios y la capacidad de generalización downstream
En la evaluación, los modelos entrenados con The Pile mostraron mejoras moderadas en benchmarks tradicionales de modelado de lenguaje y registraron mejoras significativas en Pile BPB
Pile BPB (bits per byte) es un benchmark que requiere comprender texto de múltiples dominios
- Entre los dominios objetivo se incluyen libros, repositorios de GitHub, páginas web y registros de chat
- También incluye artículos de medicina, física, matemáticas, ciencias de la computación y filosofía
Este benchmark exige tanto conocimiento del mundo específico por dominio como capacidad de razonamiento, por lo que se utiliza para evaluar la capacidad de modelado de texto entre dominios de los modelos de lenguaje a gran escala
El ejemplo del leaderboard incluye entradas al 1 de enero de 2021
- GPT-3 (Zero-Shot)*, OpenAI: Test BPB 0.7177
- GPT-2 (Zero-Shot)*, OpenAI: Test BPB 1.2253
- * indica una posible duplicación potencial con el conjunto de prueba
- Zero-shot significa que no todos los componentes de The Pile estuvieron incluidos en los datos de entrenamiento

1 comentarios

GN⁺ 2024-03-09

Comentarios de Hacker News

En 2020, cuando expresé preocupación porque Books3 estaba incluido en The Pile, Stella Biderman, que entonces era responsable de Eleuther, respondió así:
Dijo que en los datos existen 1) materiales fuente originales que existen en el mundo y fueron subidos en línea, 2) datos por conjunto depurados y procesados a partir de esos materiales para modelado de lenguaje, y 3) The Pile, que combina a gran escala los datos por conjunto, incluso con ponderaciones
Explicó que Eleuther creó y publicó 2 y 3, que 2 se dejó para que la gente pudiera reponderar y recombinar, y que la mayoría simplemente descargaría 3 tal cual
También sostuvo que, aunque 2 y 3 contengan datos con copyright, bajo el estándar de EE. UU. eso sería uso justo y no infracción de copyright; que descargar Maroon 5 desde un sitio web y crear un dataset correspondiente a 2 podría ser infracción según el caso, pero que su uso no lo era
- Decir que “2 y 3 son uso justo, así que no hay infracción de copyright” es algo que no se sabe hasta que se litigue
  El uso justo no se establece porque uno lo declare por su cuenta; se parece a Michael Scott de The Office gritando “¡declaro bancarrota!”
  Los tribunales lo evalúan considerando 1) el propósito y carácter del uso, 2) la naturaleza de la obra, 3) la cantidad usada y qué tan sustancial es, y 4) el efecto sobre el mercado potencial o el valor; justamente por eso OpenAI está litigando con New York Times
  Un buen resumen está en https://copyright.columbia.edu/basics/fair-use.html
- Si el conjunto 2 incluye una obra completa cuya distribución el titular del copyright no autorizó, por ejemplo un libro entero, no entiendo cómo esa afirmación podría ser cierta
  Salvo que “procesado para modelado de lenguaje” signifique un proceso completamente irreversible
- No sé cuál sea la respuesta correcta sobre el tema de copyright, pero en 2024 me gustaría que hubiera una mejor actitud hacia el trabajo humano que entra en los modelos que expresiones en voz pasiva como “los datos existen en el mundo” o “los datos fueron recolectados en un dataset”
- Se distribuyen obras sin permiso del autor, se usan de una manera que compite con el autor, muchas IA ganan dinero, y algunas incluso reproducen el texto original tal cual
  Este tipo de datasets parece reprobar la mayoría de los cuatro factores del análisis de copyright, y hasta personas no expertas a las que les expliqué los LLM entendieron que las empresas de IA están robando el trabajo de otros
  Hay un texto que resume los temas legales relacionados, cada dataset incluyendo The Pile, alternativas legales y una propuesta equilibrada de reforma de copyright: http://gethisword.com/tech/exploringai/
  Por ahora, al menos en un país, harían falta de inmediato tres reglas: las obras a las que se tiene acceso legal deberían poder usarse para entrenamiento de IA; las restricciones al entrenamiento, los cobros adicionales y las restricciones de descarga deberían ser ilegales; debería permitirse copiar y transformar obras accesibles para entrenamiento con fines de uso personal; y las obras web publicadas gratuitamente deberían poder copiarse, compartirse, procesarse y agruparse para entrenamiento de IA sin importar las condiciones
  El copyright de las salidas de IA debería regirse por la doctrina existente sobre IA y obras mixtas, y si la salida es objeto de copyright, el usuario debería quedar en la misma posición que si hubiera publicado directamente basándose en una obra preexistente; además, los conjuntos de entrenamiento también deberían publicarse para poder determinarlo
- ¿Raspar Libgen y descargar y redistribuir contenido con copyright no es ilegal?
  Soy escéptico. Compartir por torrent una película que bajaste de algún lugar de internet no es “uso justo”, y The Pile no es solo código que transforma datos, sino los propios datos redistribuidos
  Con esa lógica, significaría que se puede operar legalmente un mirror de Libgen
¿Dónde se puede verificar la reproducción de licencias y la atribución de créditos/autores del contenido distribuido en este dataset?
¿Está todo incluido? ¿Se puede saber si todos los elementos incluidos cumplen?
Estoy abierto a discutir si un generador hecho con un modelo entrenado con datos con copyright puede evitar obligaciones de copyright en sus salidas, pero el dataset en sí obviamente no queda atado al copyright del contenido que contiene, ¿o sí?
- Este dataset incluye Books3, que se acerca bastante a un dump completo de Bibliotik, un tracker de torrents dedicado a ebooks pirata
  Si llenas una pared con nombres de autores o editoriales famosas y lanzas un dardo, es muy probable que le des a alguien que tenga derechos sobre parte de estos datos
  Parece que si dices “para investigación de IA”, entonces todo vale. Como si con solo tener un dominio .ai ya estuviera bien subir rips de Blu-ray
- Lo robaron porque creen que hacer sus propios juguetes es más importante que los derechos que otras personas tienen sobre el producto de su trabajo
No puedo creer que la gente comparta y vuelva a publicar obras con copyright en internet. Qué sorpresa
En fin, ¿RedPajama 30T y The Pile son “all you need”? ;)
- Más adelante, alcanzan para preentrenamiento orientado a cubrir tareas específicas de procesamiento de lenguaje natural
  Para obtener resultados interesantes, hace falta generar a partir de esto datasets de instrucciones, y tienen que cubrir tareas variadas
  No es la oración completada en sí lo que hace que un LLM muestre conocimiento y razonamiento, sino datasets de instrucciones grandes y diversos
- Como ya hay demasiada polémica por copyright, está en marcha un proyecto para crear The Pile v2 que incluya solo datos con licencias permisivas
¿Books3, que aparece en el paper de The Pile, es efectivamente ese dataset por el que los autores están en juicio? ¿Ese que contiene en masa material popular y con copyright?
- Sí. Según el paper enlazado, Books3 es un dataset de libros derivado de una copia del contenido del tracker privado Bibliotik publicada por Shawn Presser
  Se indica que Bibliotik mezcla ficción y no ficción, que es casi un orden de magnitud más grande que BookCorpus2, el siguiente dataset de libros más grande, y que se incluyó porque los libros son valiosos para la investigación de modelado de contexto largo y narración consistente
- Como punto de partida para revisar varios procesos legales, esta lista parece bastante buena. No sé con qué frecuencia la actualizan hasta casos como Silverman et al.
  https://originality.ai/blog/openai-chatgpt-lawsuit-list
- Eso parece. Ver https://www.wired.com/story/battle-over-books3/
- ¿Ellos sostienen que sus datos no provenían de fuentes con copyright o que no estaban sujetos a copyright?
Mucha atención se ha centrado en Books3, pero otro gran componente de este dataset es OpenWebText2, cuyo nombre resulta engañoso
Esto se armó raspando 15 años de sitios web de terceros enlazados desde publicaciones de Reddit con muchas recomendaciones, y parte de mis textos está ahí
- Dejando de lado la relevancia y el impacto, cuesta aceptar la idea de publicar algo abiertamente en internet en un sitio sin restricciones de acceso y luego reclamar derechos morales sobre ese contenido
  Es como transmitirlo por radio o repartir impresos en la puerta de millones de personas al azar
  Hay formas de establecer la propiedad intelectual y proteger datos con copyright, pero fanfics de Tumblr, comentarios de YouTube y discusiones de HN no son una vía formal para asegurar copyright
  Lo publicado en sitios web que se pueden raspar legalmente puede quedar cubierto por uso justo
  Los datos recopilados de sitios web públicos se pueden usar en privado para lo que uno quiera, e incluso se podría crear un gran HN LLM con un dataset raspado y usarlo de forma privada
  Considerando la jurisprudencia reciente, mientras se hagan esfuerzos de buena fe para respetar el copyright y evitar la reproducción del texto original, incluso un modelo entrenado con todas las obras del mundo podría quizá ofrecerse por API y usarse comercialmente
  Pero vender o distribuir el modelo en sí ya entra en otro terreno legal
  Internet fue diseñado originalmente para funcionar así, y si alguien quiere impedir el acceso debería implementar autenticación, configuración de red o controles de acceso
  Si lo publicaste en un sitio abierto sin esas medidas, hay que entender que renuncias en gran parte a reclamar una amplia protección basada en uso justo, y que al poner un servidor y un dominio implícitamente invitaste al mundo entero a descargarlo
  Lo que se considera un mal uso en OpenWebText2, en el fondo, también proviene de haberlo publicado en un sitio web abierto y luego perder el control sobre su uso posterior; fue raspado de manera legítima
- Si me dices el nombre de dominio, revisaré en los principales LLM si hay plagio
  Apuesto a que ningún modelo podrá generar ni una sola oración de tus textos
¿Todavía se puede descargar desde algún lado? Intenté bajarlo hace unos meses, pero el enlace de descarga daba 404, y parece que sigue igual
- La distribución se hace sobre todo mediante enlaces torrent y magnet y el intercambio directo de discos duros
  Si no conoces a alguien que ya lo tenga, puedes buscar trackers públicos
  Pero debes saber que, como incluye contenido con copyright, distribuirlo equivale a piratería
- No sé si está bien publicar aquí el enlace magnet
  magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667&dn=EleutherAI_ThePile_v1
- The Pile ya es noticia vieja, y se recomienda mirar datasets más recientes como the-stack-v2
  https://huggingface.co/datasets/bigcode/the-stack-v2
  — https://the-eye.eu/public/AI/pile/readme.txt
- The Pile incluye muchas fuentes curadas, y la tendencia reciente va hacia combinar fuentes de datos curadas con web crawls filtrados
  Por ejemplo, procesar fuertemente Common Crawl y mezclarlo; dolma o the-stack-v2 para modelos de código, que otros mencionaron, son ejemplos de eso
El nombre está bueno. Me recuerda al “Pile” original del Proyecto Manhattan
Lo leí en “The Making of the Atomic Bomb” (1986), y supongo que también habrá salido en la película reciente
- En realidad casi no aparece. Recuerdo que había una escena donde se mencionaba muy brevemente
  La película me dio la impresión de hilar anécdotas para construir al final un mensaje algo tosco
  Como historia de ficción más que como recreación fiel, me pareció una película aceptable, pero creo que es mejor leer el libro
  En especial si te interesa Fermi, recomiendo “The Last Man Who Knew Everything” de David Schwartz
The Pile es bastante antiguo, ¿esta es una versión actualizada?
- No
  En relación con eso, hace poco se publicó la versión 2 del dataset the-stack
  Recorrieron el dataset de grafos de Software Heritage del 2023-09-06 y recopilaron 3.28 mil millones de archivos únicos pertenecientes a 104.2 millones de repositorios de GitHub, y además reunieron metadatos a nivel de repositorio del GitHub Archive hasta el 2023-09-14
  El tamaño total sin comprimir es de 67.53TB, y en el pipeline de preprocesamiento implementaron deduplicación aproximada además de deduplicación exacta
  Después de la deduplicación, por tamaño y cantidad de tokens, la v1 queda en 2.9TB·200B y la v2 en 32.1TB·900B
  Parece que pronto saldrán modelos de código públicos bastante potentes, y los modelos que quiero probar son dolphincoder-starcoder2-15b-iMat.GGUF, CodeFuse-DeepSeek-33B-iMat.GGUF, OpenCodeInterpreter-DS-33B-iMat.GGUF y starcoder2-15b-instruct-iMat.GGUF
  Dataset: https://huggingface.co/datasets/bigcode/the-stack-v2
  Cuantizaciones GGUF: https://huggingface.co/dranger003
Los grandes estudios de Hollywood les pagan mucho dinero a varias empresas de ciberseguridad para encontrar contenido pirateado y enviar avisos de cese por infracción de derechos de autor a las empresas de hosting
Si autores y artistas se organizaran en formas como agrupaciones de datos, podrían hacer lo mismo que los estudios
Si la ley de derechos de autor realmente tiene fuerza efectiva, una organización así podría enviar solicitudes legales a donde se hospeda ese contenido para exigir que lo bajen

The Pile, un dataset open source de modelado de lenguaje de 825 GiB (2020)

Composición y distribución de The Pile

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Rol como conjunto de entrenamiento y benchmark

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News