Guía de Cloud GPU: ¿qué GPU usar para IA y dónde?
(gpus.llm-utils.org)- Si creas herramientas de IA usando StableDiffusion, Whisper, LLMs de código abierto, etc., tienen que seguir ejecutándose en algún lugar
¿Qué GPU debería usar?
Si usas Cloud GPU:
- Falcon-40B, Falcon-40B-Uncensored o Falcon-40B-Instruct
- Si quieres el mejor rendimiento sin importar el costo: 2 H100
- Si buscas un balance entre costo y rendimiento: 2 RTX 6000 Ada (no A6000 ni RTX6000)
- Si quieres algo barato: 2 A6000
- MPT-30B
- Mejor rendimiento o mejor relación costo-beneficio: 1 H100
- Barato: 1 A100 80GB
- Stable Diffusion
- Mejor rendimiento: 1 H100
- Relación costo-beneficio: 1 4090
- Barato: 1 3090
- Whisper
- Igual que Stable Diffusion
- Whisper-Large puede ejecutarse con menos VRAM, pero la mayoría de las nubes no tienen ese tipo de tarjetas
- 4090/3090 también funcionan bien, y también puede usarse CPU
- Si vas a hacer fine-tuning de LLMs grandes
- Clúster de H100 o clúster de A100
- Si quieres entrenar LLMs grandes
- Clúster grande de H100
Si usas GPU local:
- Clúster grande de H100
- Casi igual que arriba, pero no es posible entrenar ni hacer fine-tuning de LLMs
- La mayoría de los LLM tienen versiones que pueden ejecutarse con poca VRAM (Falcon en 40GB)
¿Debería ejecutar los modelos localmente o en Cloud GPU?
- Ambas son opciones razonables
- Si quieres ejecutar el modelo en la nube, lo más fácil es usar las plantillas de Runpod
- La opción más sencilla es usar instancias hospedadas: DreamStudio, RunDiffusion, Playground AI para stable diffusion, etc.
¿Cuál es la diferencia entre RTX 6000, A6000 y 6000 Ada?
Las tres son completamente distintas
- RTX 6000 (Quadro RTX 6000, 24 GB VRAM, lanzada el 2018/08/13)
- RTX A6000 (48 GB VRAM, lanzada el 2020/10/05)
- RTX 6000 Ada (48 GB VRAM, lanzada el 2022/12/03)
¿DGX GH200, GH200, H100?
- 1 DGX GH200 incluye 256 GH200
- 1 GH200 incluye 1 H100 y 1 CPU Grace
¿La H100 es una gran mejora sobre la A100?
- Claro. La mejora de velocidad es muy grande. La H100 puede escalar a un mayor número de GPU que la A100
- Es decir, para entrenar LLM, lo mejor son varias H100
¿Y AMD, Intel, Cerebras?
- Por ahora, Nvidia es lo más fácil
¿Qué nube de GPU debería usar?
- Si necesitas muchas A100/H100: contacta a Oracle, FluidStack, Lambda Labs, etc.
- Si necesitas unas cuantas A100: FluidStack o Runpod
- Si necesitas 1 H100: FluidStack o Lambda Labs
- 3090, 4090, A6000 baratas: Tensordock
- Si solo necesitas inferencia de Stable Diffusion: Salad
- Si necesitas varios tipos de GPU: Runpod o FluidStack
- Si vas a usar plantillas o lo haces como hobby: Runpod
- Las nubes grandes son caras y complejas
La nube de GPU más fácil para empezar
- Usar plantillas en RunPod
- Ten en cuenta que los pods de RunPod no son VMs con todas las funciones, sino contenedores Docker en la máquina host
¿Cuánta VRAM, RAM del sistema y cuántos vCPU necesito?
- VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: se prefieren 16GB o más
- Whisper: 12GB+. (Eso es usando la versión de OpenAI; con versiones de la comunidad también puede funcionar en CPU)
- RAM del sistema
- 1 a 2 veces la VRAM
- vCPU
- Con 8-16 vCPU suele ser suficiente, a menos que no se trate de una carga grande de trabajo con GPU
- Capacidad de disco
- Depende del caso de uso. Si no estás seguro, empieza con 100GB y revisa si se ajusta a tu caso
6 comentarios
Estoy usando Runpod, es barato, fácil de usar y me encanta. ¡Gracias por la buena información!
¡Muy buena información!
Parecen faltar un par de secciones en la parte de abajo, así que intenté agregarlas. :)
¿Se necesita SXM o PCIe, NVLink?
¿Y InfiniBand?
¡Gracias por el buen artículo!
Sin duda, será información muy valiosa para quienes estén relacionados con esto.
Oh, qué material tan útil.