XGen-7B - un LLM de 7B entrenado con 1.5T tokens y longitud de secuencia de hasta 8K

xguru · 2023-07-01T10:02:01+09:00

A medida que los LLM se usan más, se vuelve importante aplicarlos a secuencias largas: resumen de documentos, escritura de código, predicción de secuencias de proteínas, etc. Sin embargo, la mayoría de los LLM de código abierto (LLaMA, MPT, Falcon) han sido entrenados con una longitud máxima de secuencia de 2K tokens. XGen-7B fue entrenado con 1.5T tokens y una longitud máxima de secuencia de hasta 8K. En benchmarks estándar de NLP, muestra un rendimiento comparable o superior al de MPT, Falcon, LLaMA, Redpajama y OpenLLaMA del mismo tamaño de modelo. Excelentes resultados tanto en tareas de texto (MMLU, QA) como de código (HumanEval). El costo de entrenamiento para 1T tokens en TPU-v4 fue de aproximadamente $150K.

(blog.salesforceairesearch.com)

4 puntos por xguru 2023-07-01 | Aún no hay comentarios. | Compartir por WhatsApp

A medida que los LLM se usan más, se vuelve importante aplicarlos a secuencias largas: resumen de documentos, escritura de código, predicción de secuencias de proteínas, etc.
Sin embargo, la mayoría de los LLM de código abierto (LLaMA, MPT, Falcon) han sido entrenados con una longitud máxima de secuencia de 2K tokens.
XGen-7B fue entrenado con 1.5T tokens y una longitud máxima de secuencia de hasta 8K.
En benchmarks estándar de NLP, muestra un rendimiento comparable o superior al de MPT, Falcon, LLaMA, Redpajama y OpenLLaMA del mismo tamaño de modelo.
Excelentes resultados tanto en tareas de texto (MMLU, QA) como de código (HumanEval).
El costo de entrenamiento para 1T tokens en TPU-v4 fue de aproximadamente $150K.

XGen-7B - un LLM de 7B entrenado con 1.5T tokens y longitud de secuencia de hasta 8K

Lecturas relacionadas

Aún no hay comentarios.