8 puntos por xguru 2023-05-16 | 2 comentarios | Compartir por WhatsApp
  • Un proyecto de código abierto que arma todo el pipeline, desde la creación del dataset hasta la tokenización, el ajuste de prompts, LoRA y RLHF
  • El modelo preentrenado Open-LLama-V2-pretrain también fue publicado en Hugging Face
  • Según el método de evaluación de FastChat, alcanza cerca del 89% del rendimiento de GPT-3.5 al compararlo (para preguntas en chino)
  • La velocidad de entrenamiento es de 3620 tokens/s, un poco más rápida que los 3370 del LLaMa original (modelo 7B)
  • Si se entrena con 500B tokens, se requieren 38300 horas de GPU
    • En Google Cloud, usar 8 GPU A100-80G Spot durante una hora cuesta 12.6 dólares
    • El costo total es de 60300 dólares

2 comentarios

 
zer0ne 2023-05-16

Me pregunto cuánto tardaría el entrenamiento si se hace con una GPU de consumo común como la 4090

 
xguru 2023-05-16

Me suena el nombre... así que lo busqué y resulta que
OpenLLaMA - la réplica abierta de LLaMA
solo se diferencia de este por un guion en el nombre, pero el contenido del proyecto es completamente distinto.