5 puntos por xguru 2023-11-09 | 1 comentarios | Compartir por WhatsApp
  • Mucho más grande que RedPajama-1T, que tenía 1 billón de tokens
  • Más de 100 mil millones de documentos de texto que contienen más de 100 billones de tokens en bruto de 84 volcados de CommonCrawl
  • Incluye más de 40 anotaciones de calidad precomputadas, de las más utilizadas, para un subconjunto deduplicado de 30 billones de tokens
  • 5 idiomas: inglés, francés, español, alemán e italiano
  • Todos los scripts de procesamiento de datos son de código abierto y están disponibles en GitHub, y todos los datos están disponibles en HuggingFace