Calculando el costo de un paper de Google DeepMind

(152334H.github.io)

4 puntos por GN⁺ 2024-07-31 | 1 comentarios | Compartir por WhatsApp

"Cómo quemar unos $10M (130 mil millones de wones) en un preprint de arXiv"
Recientemente, DeepMind (GDM) publicó un excelente paper titulado "Scaling Exponents Across Parameterizations and Optimizers"
- Este paper realizó más de 10,000 corridas de entrenamiento de LLM para derivar los hiperparámetros óptimos en distintos entornos
Después de leer el paper, se intentó calcular el costo total de cómputo necesario para reproducirlo, recopilando todos los resultados experimentales
Como resultado, el total de FLOPS necesarios es 5.42e24 y el costo es $12.9M (17.8 mil millones de wones) (medido a $3 por H100/hora)
- Viéndolo en términos generales, 5.42e24 no es una escala "tan grande"
- Esto no llega ni al 15% del cómputo usado en Llama 3, y todos estos experimentos podrían ejecutarse en solo 2 días con un clúster de 100,000 H100

Explicación adicional sobre el valor del H100

Como se trata de un paper de exintegrantes de Google DeepMind, es casi seguro que los experimentos se hicieron con TPU
Como en el paper no se menciona el uso de int8, se estima que probablemente se usó precisión bfloat16
El H100-SXM ofrece 989.40 TFLOP/s de rendimiento en operaciones tensoriales de 16 bits
Un post reciente del blog de PyTorch y torchtitan reporta un MFU de alrededor del 40% para H100
Se estima que el costo de un nodo H100 es de unos $3 por hora (varía un poco según dónde se use, así que es un promedio)

parkindani 2024-08-01

Me da curiosidad conocer la cantidad total de energía utilizada más que el precio.