4 puntos por xguru 2023-07-01 | Aún no hay comentarios. | Compartir por WhatsApp
  • A medida que los LLM se usan más, se vuelve importante aplicarlos a secuencias largas: resumen de documentos, escritura de código, predicción de secuencias de proteínas, etc.
  • Sin embargo, la mayoría de los LLM de código abierto (LLaMA, MPT, Falcon) han sido entrenados con una longitud máxima de secuencia de 2K tokens.
  • XGen-7B fue entrenado con 1.5T tokens y una longitud máxima de secuencia de hasta 8K.
  • En benchmarks estándar de NLP, muestra un rendimiento comparable o superior al de MPT, Falcon, LLaMA, Redpajama y OpenLLaMA del mismo tamaño de modelo.
  • Excelentes resultados tanto en tareas de texto (MMLU, QA) como de código (HumanEval).
  • El costo de entrenamiento para 1T tokens en TPU-v4 fue de aproximadamente $150K.

Aún no hay comentarios.

Aún no hay comentarios.