RedPajama v2 - conjunto de datos de 30 billones (30T) de tokens para entrenar LLM

xguru · 2023-11-09T09:46:02+09:00

Mucho más grande que RedPajama-1T, que tenía 1 billón de tokens Más de 100 mil millones de documentos de texto que contienen más de 100 billones de tokens en bruto de 84 volcados de CommonCrawl Incluye más de 40 anotaciones de calidad precomputadas, de las más utilizadas, para un subconjunto deduplicado de 30 billones de tokens 5 idiomas: inglés, francés, español, alemán e italiano Todos los scripts de procesamiento de datos son de código abierto y están disponibles en GitHub, y todos los datos están disponibles en HuggingFace

(together.ai)

5 puntos por xguru 2023-11-09 | 1 comentarios | Compartir por WhatsApp

Mucho más grande que RedPajama-1T, que tenía 1 billón de tokens
Más de 100 mil millones de documentos de texto que contienen más de 100 billones de tokens en bruto de 84 volcados de CommonCrawl
Incluye más de 40 anotaciones de calidad precomputadas, de las más utilizadas, para un subconjunto deduplicado de 30 billones de tokens
5 idiomas: inglés, francés, español, alemán e italiano
Todos los scripts de procesamiento de datos son de código abierto y están disponibles en GitHub, y todos los datos están disponibles en HuggingFace

1 comentarios

xguru 2023-11-09

RedPajama - Proyecto de código abierto que reescribe el conjunto de datos de LLaMA
Presentación de los modelos RedPajama 3B y 7B
RedPajama presenta un modelo 7B con un rendimiento superior al de otros modelos LLM 7B públicos en el benchmark HELM

RedPajama v2 - conjunto de datos de 30 billones (30T) de tokens para entrenar LLM

Lecturas relacionadas

1 comentarios