14 puntos por xguru 2023-04-19 | 1 comentarios | Compartir por WhatsApp
  • Proyecto para crear un modelo de lenguaje completamente abierto y reproducible, en lugar de modelos semiabiertos como LLaMA, Alpaca o Vicuna
  • 3 componentes
    • Datos de preentrenamiento de alta calidad y amplia cobertura
    • Un modelo base entrenado a gran escala sobre estos datos
    • Datos y modelos de ajuste por instrucciones para hacer que el modelo base sea seguro y utilizable
  • Como primer componente, se publicó el dataset RedPajama-Data-1T
    • Un conjunto de datos completamente abierto, compuesto por 1.2 billones de tokens, generado siguiendo la receta descrita en el paper de LLaMA
    • Disponible para descarga a través de HuggingFace. Total de 5TB (distribuido comprimido a 3TB)
    • Compuesto por 7 fragmentos de datos: cada uno fue preprocesado y filtrado para tener una cantidad similar a la del paper de LLaMA (los métodos de preprocesamiento y los filtros también están publicados en GitHub)
      • CommonCrawl (878b) - Datos de rastreo web
      • C4 (175b) - Versión colosal y limpia de Common Crawl
      • GitHub (59b) - Datos de GitHub filtrados por licencia y calidad
      • arXiv (28b) - Papers y artículos científicos (con eliminación de boilerplate)
      • Books (26b) - Corpus de libros públicos con duplicados eliminados según similitud de contenido
      • Wikipedia (24b) - Algunas páginas de Wikipedia (con eliminación de boilerplate)
      • StackExchange (20b) - Algunas páginas de StackExchange (con eliminación de boilerplate)
  • El siguiente paso es entrenar un modelo base potente. Planean publicarlo en unas semanas
  • El ajuste por instrucciones se realizará con lo provisto a través de OpenChatkit