- A medida que los LLM se usan más, se vuelve importante aplicarlos a secuencias largas: resumen de documentos, escritura de código, predicción de secuencias de proteínas, etc.
- Sin embargo, la mayoría de los LLM de código abierto (LLaMA, MPT, Falcon) han sido entrenados con una longitud máxima de secuencia de 2K tokens.
- XGen-7B fue entrenado con 1.5T tokens y una longitud máxima de secuencia de hasta 8K.
- En benchmarks estándar de NLP, muestra un rendimiento comparable o superior al de MPT, Falcon, LLaMA, Redpajama y OpenLLaMA del mismo tamaño de modelo.
- Excelentes resultados tanto en tareas de texto (MMLU, QA) como de código (HumanEval).
- El costo de entrenamiento para 1T tokens en TPU-v4 fue de aproximadamente $150K.
Aún no hay comentarios.