- "Cómo quemar unos $10M (130 mil millones de wones) en un preprint de arXiv"
- Recientemente, DeepMind (GDM) publicó un excelente paper titulado "Scaling Exponents Across Parameterizations and Optimizers"
- Este paper realizó más de 10,000 corridas de entrenamiento de LLM para derivar los hiperparámetros óptimos en distintos entornos
- Después de leer el paper, se intentó calcular el costo total de cómputo necesario para reproducirlo, recopilando todos los resultados experimentales
- Como resultado, el total de FLOPS necesarios es 5.42e24 y el costo es $12.9M (17.8 mil millones de wones) (medido a $3 por H100/hora)
- Viéndolo en términos generales, 5.42e24 no es una escala "tan grande"
- Esto no llega ni al 15% del cómputo usado en Llama 3, y todos estos experimentos podrían ejecutarse en solo 2 días con un clúster de 100,000 H100
Explicación adicional sobre el valor del H100
- Como se trata de un paper de exintegrantes de Google DeepMind, es casi seguro que los experimentos se hicieron con TPU
- Como en el paper no se menciona el uso de int8, se estima que probablemente se usó precisión bfloat16
- El H100-SXM ofrece 989.40 TFLOP/s de rendimiento en operaciones tensoriales de 16 bits
- Un post reciente del blog de PyTorch y torchtitan reporta un MFU de alrededor del 40% para H100
- Se estima que el costo de un nodo H100 es de unos $3 por hora (varía un poco según dónde se use, así que es un promedio)
1 comentarios
Me da curiosidad conocer la cantidad total de energía utilizada más que el precio.