37 puntos por xguru 2023-08-23 | 6 comentarios | Compartir por WhatsApp
  • Si creas herramientas de IA usando StableDiffusion, Whisper, LLMs de código abierto, etc., tienen que seguir ejecutándose en algún lugar

¿Qué GPU debería usar?

Si usas Cloud GPU:

  • Falcon-40B, Falcon-40B-Uncensored o Falcon-40B-Instruct
    • Si quieres el mejor rendimiento sin importar el costo: 2 H100
    • Si buscas un balance entre costo y rendimiento: 2 RTX 6000 Ada (no A6000 ni RTX6000)
    • Si quieres algo barato: 2 A6000
  • MPT-30B
    • Mejor rendimiento o mejor relación costo-beneficio: 1 H100
    • Barato: 1 A100 80GB
  • Stable Diffusion
    • Mejor rendimiento: 1 H100
    • Relación costo-beneficio: 1 4090
    • Barato: 1 3090
  • Whisper
    • Igual que Stable Diffusion
    • Whisper-Large puede ejecutarse con menos VRAM, pero la mayoría de las nubes no tienen ese tipo de tarjetas
    • 4090/3090 también funcionan bien, y también puede usarse CPU
  • Si vas a hacer fine-tuning de LLMs grandes
    • Clúster de H100 o clúster de A100
  • Si quieres entrenar LLMs grandes
    • Clúster grande de H100
      Si usas GPU local:
  • Casi igual que arriba, pero no es posible entrenar ni hacer fine-tuning de LLMs
  • La mayoría de los LLM tienen versiones que pueden ejecutarse con poca VRAM (Falcon en 40GB)

¿Debería ejecutar los modelos localmente o en Cloud GPU?

  • Ambas son opciones razonables
  • Si quieres ejecutar el modelo en la nube, lo más fácil es usar las plantillas de Runpod
  • La opción más sencilla es usar instancias hospedadas: DreamStudio, RunDiffusion, Playground AI para stable diffusion, etc.

¿Cuál es la diferencia entre RTX 6000, A6000 y 6000 Ada?

Las tres son completamente distintas

  • RTX 6000 (Quadro RTX 6000, 24 GB VRAM, lanzada el 2018/08/13)
  • RTX A6000 (48 GB VRAM, lanzada el 2020/10/05)
  • RTX 6000 Ada (48 GB VRAM, lanzada el 2022/12/03)

¿DGX GH200, GH200, H100?

  • 1 DGX GH200 incluye 256 GH200
  • 1 GH200 incluye 1 H100 y 1 CPU Grace

¿La H100 es una gran mejora sobre la A100?

  • Claro. La mejora de velocidad es muy grande. La H100 puede escalar a un mayor número de GPU que la A100
  • Es decir, para entrenar LLM, lo mejor son varias H100

¿Y AMD, Intel, Cerebras?

  • Por ahora, Nvidia es lo más fácil

¿Qué nube de GPU debería usar?

  • Si necesitas muchas A100/H100: contacta a Oracle, FluidStack, Lambda Labs, etc.
  • Si necesitas unas cuantas A100: FluidStack o Runpod
  • Si necesitas 1 H100: FluidStack o Lambda Labs
  • 3090, 4090, A6000 baratas: Tensordock
  • Si solo necesitas inferencia de Stable Diffusion: Salad
  • Si necesitas varios tipos de GPU: Runpod o FluidStack
  • Si vas a usar plantillas o lo haces como hobby: Runpod
  • Las nubes grandes son caras y complejas

La nube de GPU más fácil para empezar

  • Usar plantillas en RunPod
  • Ten en cuenta que los pods de RunPod no son VMs con todas las funciones, sino contenedores Docker en la máquina host

¿Cuánta VRAM, RAM del sistema y cuántos vCPU necesito?

  • VRAM (Video RAM / GPU RAM)
    • Falcon-40B: 85-100GB
    • MPT-30B: 80GB
    • Stable Diffusion: se prefieren 16GB o más
    • Whisper: 12GB+. (Eso es usando la versión de OpenAI; con versiones de la comunidad también puede funcionar en CPU)
  • RAM del sistema
    • 1 a 2 veces la VRAM
  • vCPU
    • Con 8-16 vCPU suele ser suficiente, a menos que no se trate de una carga grande de trabajo con GPU
  • Capacidad de disco
  • Depende del caso de uso. Si no estás seguro, empieza con 100GB y revisa si se ajusta a tu caso

6 comentarios

 
wlsdk318 2024-01-30

Estoy usando Runpod, es barato, fácil de usar y me encanta. ¡Gracias por la buena información!

 
geekbini 2023-08-24

¡Muy buena información!

 
ninebow 2023-08-24

Parecen faltar un par de secciones en la parte de abajo, así que intenté agregarlas. :)


¿Se necesita SXM o PCIe, NVLink?

¿Y InfiniBand?

  • Si usas 1 o 2 GPU, no hace falta. Si usas clústeres de miles de GPU, sí.
 
ninebow 2023-08-24

¡Gracias por el buen artículo!

 
nicewook 2023-08-23

Sin duda, será información muy valiosa para quienes estén relacionados con esto.

 
ragingwind 2023-08-23

Oh, qué material tan útil.