1 puntos por GN⁺ 2024-03-09 | Aún no hay comentarios. | Compartir por WhatsApp

The Pile: un conjunto de datos de 800 GB de textos diversos para modelado de lenguaje

  • The Pile es un conjunto de datos diverso de código abierto para modelado de lenguaje, de 825 GiB, creado al combinar 22 conjuntos de datos pequeños y de alta calidad.
  • Este conjunto de datos está alojado por una organización llamada Eye y se comprime con zstandard en formato de datos jsonlines.
  • Si existe algún modelo que use o evalúe The Pile, se solicita informar a los desarrolladores.

Por qué usar The Pile como conjunto de entrenamiento

  • Según investigaciones recientes, especialmente en el caso de modelos grandes, la diversidad de las fuentes de datos mejora el conocimiento general entre dominios del modelo y su capacidad de generalización en tareas posteriores.
  • En las evaluaciones, los modelos entrenados con The Pile muestran mejoras moderadas en los benchmarks tradicionales de modelado de lenguaje y mejoras significativas en Pile BPB.

Por qué usar The Pile como benchmark

  • Para obtener una buena puntuación en Pile BPB (bits per byte), el modelo debe ser capaz de comprender diversos dominios como libros, repositorios de GitHub, páginas web, registros de chat, medicina, física, matemáticas, ciencias de la computación y artículos de filosofía.
  • Pile BPB es una métrica que mide el conocimiento del mundo y la capacidad de razonamiento en estos dominios, y constituye un benchmark sólido de la capacidad general de modelado de texto entre dominios de los modelos de lenguaje grandes.

Cita

  • Si usas The Pile o alguno de sus componentes, se solicita citarlo de la siguiente manera.
@article{pile,
  title={The {P}ile: An 800GB Dataset of Diverse Text for Language Modeling},
  author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and Presser, Shawn and Leahy, Connor},
  journal={arXiv preprint arXiv:2101.00027},
  year={2020}
}

Tabla de clasificación

  • La tabla de clasificación indica la posibilidad de superposición con el conjunto de prueba, y Zero-shot significa que no todos los componentes de The Pile estaban incluidos en los datos de entrenamiento.
  • GPT-3 (Zero-Shot)* y GPT-2 (Zero-Shot)* fueron clasificados por OpenAI el 1 de enero de 2021 con un Test BPB de 0.7177 y 1.225, respectivamente.
  • El código de evaluación fue proporcionado por EleutherAI 2021.

Opinión de GN⁺

  • El conjunto de datos The Pile refleja hallazgos recientes de investigación que destacan la importancia de la diversidad de datos en el entrenamiento y benchmarking de modelos de lenguaje. Esto contribuye a que los modelos de lenguaje puedan comprender y procesar textos diversos del mundo real.
  • El tamaño y la diversidad del conjunto de datos permiten que los modelos aprendan un rango más amplio de conocimientos y desarrollen una mejor capacidad de generalización. Esto puede considerarse un avance importante, especialmente en el campo de la inteligencia artificial.
  • Sin embargo, para aprovechar eficazmente estos conjuntos de datos a gran escala se requieren recursos computacionales considerables, lo que plantea cuestiones relacionadas con el costo y el impacto ambiental.
  • Otros proyectos con funciones similares incluyen modelos de lenguaje de gran escala como GPT-3 de OpenAI, que también aprenden a partir de diversas fuentes de datos.
  • Antes de usar The Pile, es necesario comprender bien el origen y la calidad de los datos, así como el contenido que aprenderá el modelo. El beneficio de elegir este conjunto de datos es la adquisición de conocimientos diversos por parte del modelo, pero también deben considerarse los costos de procesamiento y almacenamiento de los datos.

Aún no hay comentarios.

Aún no hay comentarios.