- Mucho más grande que RedPajama-1T, que tenía 1 billón de tokens
- Más de 100 mil millones de documentos de texto que contienen más de 100 billones de tokens en bruto de 84 volcados de CommonCrawl
- Incluye más de 40 anotaciones de calidad precomputadas, de las más utilizadas, para un subconjunto deduplicado de 30 billones de tokens
- 5 idiomas: inglés, francés, español, alemán e italiano
- Todos los scripts de procesamiento de datos son de código abierto y están disponibles en GitHub, y todos los datos están disponibles en HuggingFace
1 comentarios
RedPajama - Proyecto de código abierto que reescribe el conjunto de datos de LLaMA
Presentación de los modelos RedPajama 3B y 7B
RedPajama presenta un modelo 7B con un rendimiento superior al de otros modelos LLM 7B públicos en el benchmark HELM