RedPajama - Proyecto de código abierto para reescribir el dataset de LLaMA

xguru · 2023-04-19T10:03:01+09:00

Proyecto para crear un modelo de lenguaje completamente abierto y reproducible, en lugar de modelos semiabiertos como LLaMA, Alpaca o Vicuna 3 componentes Datos de preentrenamiento de alta calidad y amplia cobertura Un modelo base entrenado a gran escala sobre estos datos Datos y modelos de ajuste por instrucciones para hacer que el modelo base sea seguro y utilizable Como primer componente, se publicó el dataset RedPajama-Data-1T Un conjunto de datos completamente abierto, compuesto por 1.2 billones de tokens, generado siguiendo la receta descrita en el paper de LLaMA Disponible para descarga a través de HuggingFace. Total de 5TB (distribuido comprimido a 3TB) Compuesto por 7 fragmentos de datos: cada uno fue preprocesado y filtrado para tener una cantidad similar a la del paper de LLaMA (los métodos de preprocesamiento y los filtros también están publicados en GitHub) CommonCrawl (878b) - Datos de rastreo web C4 (175b) - Versión colosal y limpia de Common Crawl GitHub (59b) - Datos de GitHub filtrados por licencia y calidad arXiv (28b) - Papers y artículos científicos (con eliminación de boilerplate) Books (26b) - Corpus de libros públicos con duplicados eliminados según similitud de contenido Wikipedia (24b) - Algunas páginas de Wikipedia (con eliminación de boilerplate) StackExchange (20b) - Algunas páginas de StackExchange (con eliminación de boilerplate) El siguiente paso es entrenar un modelo base potente. Planean publicarlo en unas semanas El ajuste por instrucciones se realizará con lo provisto a través de OpenChatkit

(together.xyz)

14 puntos por xguru 2023-04-19 | 1 comentarios | Compartir por WhatsApp

Proyecto para crear un modelo de lenguaje completamente abierto y reproducible, en lugar de modelos semiabiertos como LLaMA, Alpaca o Vicuna
3 componentes
- Datos de preentrenamiento de alta calidad y amplia cobertura
- Un modelo base entrenado a gran escala sobre estos datos
- Datos y modelos de ajuste por instrucciones para hacer que el modelo base sea seguro y utilizable
Como primer componente, se publicó el dataset RedPajama-Data-1T
- Un conjunto de datos completamente abierto, compuesto por 1.2 billones de tokens, generado siguiendo la receta descrita en el paper de LLaMA
- Disponible para descarga a través de HuggingFace. Total de 5TB (distribuido comprimido a 3TB)
- Compuesto por 7 fragmentos de datos: cada uno fue preprocesado y filtrado para tener una cantidad similar a la del paper de LLaMA (los métodos de preprocesamiento y los filtros también están publicados en GitHub)
  - CommonCrawl (878b) - Datos de rastreo web
  - C4 (175b) - Versión colosal y limpia de Common Crawl
  - GitHub (59b) - Datos de GitHub filtrados por licencia y calidad
  - arXiv (28b) - Papers y artículos científicos (con eliminación de boilerplate)
  - Books (26b) - Corpus de libros públicos con duplicados eliminados según similitud de contenido
  - Wikipedia (24b) - Algunas páginas de Wikipedia (con eliminación de boilerplate)
  - StackExchange (20b) - Algunas páginas de StackExchange (con eliminación de boilerplate)
El siguiente paso es entrenar un modelo base potente. Planean publicarlo en unas semanas
El ajuste por instrucciones se realizará con lo provisto a través de OpenChatkit

1 comentarios

xguru 2023-04-19

Presentan OpenChatKit: un proyecto de código abierto para implementar ChatGPT

RedPajama - Proyecto de código abierto para reescribir el dataset de LLaMA

Lecturas relacionadas

1 comentarios