4 puntos por GN⁺ 2024-07-31 | 1 comentarios | Compartir por WhatsApp
  • "Cómo quemar unos $10M (130 mil millones de wones) en un preprint de arXiv"
  • Recientemente, DeepMind (GDM) publicó un excelente paper titulado "Scaling Exponents Across Parameterizations and Optimizers"
    • Este paper realizó más de 10,000 corridas de entrenamiento de LLM para derivar los hiperparámetros óptimos en distintos entornos
  • Después de leer el paper, se intentó calcular el costo total de cómputo necesario para reproducirlo, recopilando todos los resultados experimentales
  • Como resultado, el total de FLOPS necesarios es 5.42e24 y el costo es $12.9M (17.8 mil millones de wones) (medido a $3 por H100/hora)
    • Viéndolo en términos generales, 5.42e24 no es una escala "tan grande"
    • Esto no llega ni al 15% del cómputo usado en Llama 3, y todos estos experimentos podrían ejecutarse en solo 2 días con un clúster de 100,000 H100

Explicación adicional sobre el valor del H100

  • Como se trata de un paper de exintegrantes de Google DeepMind, es casi seguro que los experimentos se hicieron con TPU
  • Como en el paper no se menciona el uso de int8, se estima que probablemente se usó precisión bfloat16
  • El H100-SXM ofrece 989.40 TFLOP/s de rendimiento en operaciones tensoriales de 16 bits
  • Un post reciente del blog de PyTorch y torchtitan reporta un MFU de alrededor del 40% para H100
  • Se estima que el costo de un nodo H100 es de unos $3 por hora (varía un poco según dónde se use, así que es un promedio)

1 comentarios

 
parkindani 2024-08-01

Me da curiosidad conocer la cantidad total de energía utilizada más que el precio.