Guía de Cloud GPU: ¿qué GPU usar para IA y dónde?

xguru · 2023-08-23T11:04:02+09:00

Si creas herramientas de IA usando StableDiffusion, Whisper, LLMs de código abierto, etc., tienen que seguir ejecutándose en algún lugar ¿Qué GPU debería usar? Si usas Cloud GPU: Falcon-40B, Falcon-40B-Uncensored o Falcon-40B-Instruct Si quieres el mejor rendimiento sin importar el costo: 2 H100 Si buscas un balance entre costo y rendimiento: 2 RTX 6000 Ada (no A6000 ni RTX6000) Si quieres algo barato: 2 A6000 MPT-30B Mejor rendimiento o mejor relación costo-beneficio: 1 H100 Barato: 1 A100 80GB Stable Diffusion Mejor rendimiento: 1 H100 Relación costo-beneficio: 1 4090 Barato: 1 3090 Whisper Igual que Stable Diffusion Whisper-Large puede ejecutarse con menos VRAM, pero la mayoría de las nubes no tienen ese tipo de tarjetas 4090/3090 también funcionan bien, y también puede usarse CPU Si vas a hacer fine-tuning de LLMs grandes Clúster de H100 o clúster de A100 Si quieres entrenar LLMs grandes Clúster grande de H100 Si usas GPU local: Casi igual que arriba, pero no es posible entrenar ni hacer fine-tuning de LLMs La mayoría de los LLM tienen versiones que pueden ejecutarse con poca VRAM (Falcon en 40GB) ¿Debería ejecutar los modelos localmente o en Cloud GPU? Ambas son opciones razonables Si quieres ejecutar el modelo en la nube, lo más fácil es usar las plantillas de Runpod La opción más sencilla es usar instancias hospedadas: DreamStudio, RunDiffusion, Playground AI para stable diffusion, etc. ¿Cuál es la diferencia entre RTX 6000, A6000 y 6000 Ada? Las tres son completamente distintas RTX 6000 (Quadro RTX 6000, 24 GB VRAM, lanzada el 2018/08/13) RTX A6000 (48 GB VRAM, lanzada el 2020/10/05) RTX 6000 Ada (48 GB VRAM, lanzada el 2022/12/03) ¿DGX GH200, GH200, H100? 1 DGX GH200 incluye 256 GH200 1 GH200 incluye 1 H100 y 1 CPU Grace ¿La H100 es una gran mejora sobre la A100? Claro. La mejora de velocidad es muy grande. La H100 puede escalar a un mayor número de GPU que la A100 Es decir, para entrenar LLM, lo mejor son varias H100 ¿Y AMD, Intel, Cerebras? Por ahora, Nvidia es lo más fácil ¿Qué nube de GPU debería usar? Si necesitas muchas A100/H100: contacta a Oracle, FluidStack, Lambda Labs, etc. Si necesitas unas cuantas A100: FluidStack o Runpod Si necesitas 1 H100: FluidStack o Lambda Labs 3090, 4090, A6000 baratas: Tensordock Si solo necesitas inferencia de Stable Diffusion: Salad Si necesitas varios tipos de GPU: Runpod o FluidStack Si vas a usar plantillas o lo haces como hobby: Runpod Las nubes grandes son caras y complejas La nube de GPU más fácil para empezar Usar plantillas en RunPod Ten en cuenta que los pods de RunPod no son VMs con todas las funciones, sino contenedores Docker en la máquina host ¿Cuánta VRAM, RAM del sistema y cuántos vCPU necesito? VRAM (Video RAM / GPU RAM) Falcon-40B: 85-100GB MPT-30B: 80GB Stable Diffusion: se prefieren 16GB o más Whisper: 12GB+. (Eso es usando la versión de OpenAI; con versiones de la comunidad también puede funcionar en CPU) RAM del sistema 1 a 2 veces la VRAM vCPU Con 8-16 vCPU suele ser suficiente, a menos que no se trate de una carga grande de trabajo con GPU Capacidad de disco Depende del caso de uso. Si no estás seguro, empieza con 100GB y revisa si se ajusta a tu caso

(gpus.llm-utils.org)

37 puntos por xguru 2023-08-23 | 6 comentarios | Compartir por WhatsApp

Si creas herramientas de IA usando StableDiffusion, Whisper, LLMs de código abierto, etc., tienen que seguir ejecutándose en algún lugar

¿Qué GPU debería usar?

Si usas Cloud GPU:

Falcon-40B, Falcon-40B-Uncensored o Falcon-40B-Instruct
- Si quieres el mejor rendimiento sin importar el costo: 2 H100
- Si buscas un balance entre costo y rendimiento: 2 RTX 6000 Ada (no A6000 ni RTX6000)
- Si quieres algo barato: 2 A6000
MPT-30B
- Mejor rendimiento o mejor relación costo-beneficio: 1 H100
- Barato: 1 A100 80GB
Stable Diffusion
- Mejor rendimiento: 1 H100
- Relación costo-beneficio: 1 4090
- Barato: 1 3090
Whisper
- Igual que Stable Diffusion
- Whisper-Large puede ejecutarse con menos VRAM, pero la mayoría de las nubes no tienen ese tipo de tarjetas
- 4090/3090 también funcionan bien, y también puede usarse CPU
Si vas a hacer fine-tuning de LLMs grandes
- Clúster de H100 o clúster de A100
Si quieres entrenar LLMs grandes
- Clúster grande de H100
  Si usas GPU local:
Casi igual que arriba, pero no es posible entrenar ni hacer fine-tuning de LLMs
La mayoría de los LLM tienen versiones que pueden ejecutarse con poca VRAM (Falcon en 40GB)

¿Debería ejecutar los modelos localmente o en Cloud GPU?

Ambas son opciones razonables
Si quieres ejecutar el modelo en la nube, lo más fácil es usar las plantillas de Runpod
La opción más sencilla es usar instancias hospedadas: DreamStudio, RunDiffusion, Playground AI para stable diffusion, etc.

¿Cuál es la diferencia entre RTX 6000, A6000 y 6000 Ada?

Las tres son completamente distintas

RTX 6000 (Quadro RTX 6000, 24 GB VRAM, lanzada el 2018/08/13)
RTX A6000 (48 GB VRAM, lanzada el 2020/10/05)
RTX 6000 Ada (48 GB VRAM, lanzada el 2022/12/03)

¿DGX GH200, GH200, H100?

1 DGX GH200 incluye 256 GH200
1 GH200 incluye 1 H100 y 1 CPU Grace

¿La H100 es una gran mejora sobre la A100?

Claro. La mejora de velocidad es muy grande. La H100 puede escalar a un mayor número de GPU que la A100
Es decir, para entrenar LLM, lo mejor son varias H100

¿Y AMD, Intel, Cerebras?

Por ahora, Nvidia es lo más fácil

¿Qué nube de GPU debería usar?

Si necesitas muchas A100/H100: contacta a Oracle, FluidStack, Lambda Labs, etc.
Si necesitas unas cuantas A100: FluidStack o Runpod
Si necesitas 1 H100: FluidStack o Lambda Labs
3090, 4090, A6000 baratas: Tensordock
Si solo necesitas inferencia de Stable Diffusion: Salad
Si necesitas varios tipos de GPU: Runpod o FluidStack
Si vas a usar plantillas o lo haces como hobby: Runpod
Las nubes grandes son caras y complejas

La nube de GPU más fácil para empezar

Usar plantillas en RunPod
Ten en cuenta que los pods de RunPod no son VMs con todas las funciones, sino contenedores Docker en la máquina host

¿Cuánta VRAM, RAM del sistema y cuántos vCPU necesito?

VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: se prefieren 16GB o más
- Whisper: 12GB+. (Eso es usando la versión de OpenAI; con versiones de la comunidad también puede funcionar en CPU)
RAM del sistema
- 1 a 2 veces la VRAM
vCPU
- Con 8-16 vCPU suele ser suficiente, a menos que no se trate de una carga grande de trabajo con GPU
Capacidad de disco
Depende del caso de uso. Si no estás seguro, empieza con 100GB y revisa si se ajusta a tu caso

6 comentarios

wlsdk318 2024-01-30

Estoy usando Runpod, es barato, fácil de usar y me encanta. ¡Gracias por la buena información!

geekbini 2023-08-24

¡Muy buena información!

ninebow 2023-08-24

Parecen faltar un par de secciones en la parte de abajo, así que intenté agregarlas. :)

¿Se necesita SXM o PCIe, NVLink?

Si no estás seguro, por ahora asume que no es importante
Para profundizar más: https://gpus.llm-utils.org/nvlink-sxm-and-pcie/

¿Y InfiniBand?

Si usas 1 o 2 GPU, no hace falta. Si usas clústeres de miles de GPU, sí.