- Proyecto para crear un modelo de lenguaje completamente abierto y reproducible, en lugar de modelos semiabiertos como LLaMA, Alpaca o Vicuna
- 3 componentes
- Datos de preentrenamiento de alta calidad y amplia cobertura
- Un modelo base entrenado a gran escala sobre estos datos
- Datos y modelos de ajuste por instrucciones para hacer que el modelo base sea seguro y utilizable
- Como primer componente, se publicó el dataset RedPajama-Data-1T
- Un conjunto de datos completamente abierto, compuesto por 1.2 billones de tokens, generado siguiendo la receta descrita en el paper de LLaMA
- Disponible para descarga a través de HuggingFace. Total de 5TB (distribuido comprimido a 3TB)
- Compuesto por 7 fragmentos de datos: cada uno fue preprocesado y filtrado para tener una cantidad similar a la del paper de LLaMA (los métodos de preprocesamiento y los filtros también están publicados en GitHub)
- CommonCrawl (878b) - Datos de rastreo web
- C4 (175b) - Versión colosal y limpia de Common Crawl
- GitHub (59b) - Datos de GitHub filtrados por licencia y calidad
- arXiv (28b) - Papers y artículos científicos (con eliminación de boilerplate)
- Books (26b) - Corpus de libros públicos con duplicados eliminados según similitud de contenido
- Wikipedia (24b) - Algunas páginas de Wikipedia (con eliminación de boilerplate)
- StackExchange (20b) - Algunas páginas de StackExchange (con eliminación de boilerplate)
- El siguiente paso es entrenar un modelo base potente. Planean publicarlo en unas semanas
- El ajuste por instrucciones se realizará con lo provisto a través de OpenChatkit
1 comentarios
Presentan OpenChatKit: un proyecto de código abierto para implementar ChatGPT