Ideas equivocadas sobre las GPU

(fly.io)

7 puntos por GN⁺ 2025-02-15 | 1 comentarios | Compartir por WhatsApp

Fly.io está construyendo una nube pública con hardware propio y desarrolló Fly GPU Machines con el objetivo de ofrecer inferencia de AI/ML usando GPU
Fly GPU Machines es una VM que ejecuta contenedores Docker/OCI, diseñada para mapear directamente GPU de NVIDIA y permitir operaciones CUDA rápidas
La importancia de la AI/ML fue mayor de lo esperado, pero parece que los productos de GPU no reflejaron correctamente las necesidades del mercado

Dificultades técnicas para adoptar GPU

Fly GPU Machines fue diseñado para usar Cloud Hypervisor de Intel en lugar de Firecracker, con soporte para PCI passthrough
El ecosistema de NVIDIA no da soporte a hipervisores de micro-VM, lo que dificultó optimizar la seguridad y el rendimiento de las GPU
Las GPU eran motivo de preocupación para el equipo de seguridad, ya que permiten transferencias DMA (Direct Memory Access) multidireccionales y operaciones controladas por el usuario, lo que genera altos riesgos de seguridad
Para separar las cargas de trabajo con GPU y sin GPU, se usó hardware de servidor independiente, creando una estructura ineficiente en costos
Para validar la seguridad, realizaron evaluaciones de seguridad a gran escala con Atredis y Tetrel, con alto costo y consumo de tiempo

Prueba y error técnico

Intentaron mantener la velocidad de arranque rápida de Fly Machines sin seguir el enfoque recomendado por NVIDIA (crear un clúster de K8s o usar QEMU)
Fracasaron al intentar usar los drivers de GPU virtual (vGPU) de NVIDIA en Intel Cloud Hypervisor
Debido al entorno cerrado de drivers de NVIDIA, fue difícil crear una arquitectura que aprovechara eficientemente las GPU
Necesitaban optimizar la carga de pesos de modelos usando GPU, pero fue difícil resolverlo sin sacrificar la experiencia del desarrollador (DX)
Compraron muchas GPU, pero no lograron los resultados esperados

Por qué falló el modelo de negocio de GPU

Los desarrolladores comunes quieren LLM, no GPU
- En lugar de optimizar modelos de AI/ML, es más sencillo usar APIs de LLM como OpenAI o Anthropic, y la diferencia de rendimiento tampoco es tan grande
- A la mayoría de los desarrolladores les importa el rendimiento medido en "tokens per second", y no muestran mucho interés por optimizaciones al nivel de milisegundos que ofrecen las GPU
Las empresas que realizan trabajos de AI a gran escala necesitan una capacidad de cómputo con GPU enorme, y ni siquiera una sola A100 es suficiente
- Los grandes laboratorios y empresas de AI quieren clústeres H100 basados en SXM
Puede existir un mercado de GPU pequeñas para trabajos ligeros de ML, pero es difícil aprovechar NVIDIA MIG en un entorno totalmente virtualizado
La GPU L40S se está usando de forma útil, pero no logró convertirse en un factor clave de crecimiento para el negocio principal de Fly.io

Lecciones aprendidas

Al principio (2022), esperaban que aparecieran muchos modelos distintos de AI, pero hoy el mercado converge en unos pocos modelos LLM como OpenAI y Anthropic
Fly.io sigue el principio de "diseñar funciones para 10,000 desarrolladores"
- Las GPU eran apenas una función para el desarrollador número 10,001, por lo que era difícil que se convirtieran en un producto principal
Una startup aprende a través de múltiples intentos, y la adopción de GPU fue una apuesta fallida
La inversión relacionada con GPU no es una pérdida total, y parte del hardware podrá venderse más adelante
Es posible ajustar la estrategia para reducir el soporte de GPU mientras se mantiene la seguridad y la experiencia del desarrollador de Fly Machines
Así como el producto inicial de Fly.io, un runtime de edge computing para JavaScript, no era lo que el mercado quería y finalmente cambiaron a soporte para contenedores, las GPU también fueron una apuesta que no coincidía con las necesidades del mercado
Las startups a menudo encuentran la respuesta correcta a partir de suposiciones equivocadas, y este caso de las GPU fue parte de ese proceso

1 comentarios

GN⁺ 2025-02-15

Opinión de Hacker News

Los desarrolladores quieren LLMs más que GPUs o modelos de IA/ML. A los ingenieros de sistemas les importan CUDA y las GPU, pero a los desarrolladores de software no
- Hay una gran división entre los desarrolladores de software. Algunos quieren entender dónde se ejecuta el código y cómo funciona
- Otro grupo solo quiere terminar con git push y no quiere entender cosas como DNS o Linux
- Empresas como fly.io resultan atractivas para los segundos. Las instancias con GPU resultan atractivas para los primeros
- Hay que abordar ambos mercados de forma distinta. A los segundos se les puede vender mucha abstracción y automatización
Desde 2012, la ley de Moore prácticamente terminó. La ejecución de un solo hilo se estancó en 2 GHz
- Durante 2012-2022, al migrar a la nube, no nos dimos cuenta del estancamiento del rendimiento de un solo hilo
- En 2022, los centros de datos se dieron cuenta de que no necesitaban comprar chips de nueva generación con más núcleos
- Los LLMs se pueden paralelizar al 100%, así que el capital puede volver a invertirse
- En 2024 aparecerá el silicio a escala de oblea. Puede ejecutar modelos Llama 10 veces más rápido que una A100
- El software tiene que encontrar la manera de aprovechar este rendimiento
Las máquinas GPU de fly son muy rápidas y confiables, y no son caras frente a las alternativas
- La DX es excelente. No hace falta aprender comandos nuevos
- Ojalá el precio fuera más bajo y estuvieran disponibles en más regiones
Compré una 4090, pero 24 GB de VRAM no son suficientes
- Habría sido mejor tener 2 o más 3090 y una fuente de poder personalizada
- El rendimiento y la calidad todavía no son suficientes
Los clientes que eligen Fly probablemente serán los últimos en usar servidores GPU dedicados a largo plazo
- Es más probable que usen soluciones serverless
Se extraña que no haya GPU slices. Es difícil justificar un costo de $1,000 al mes
- Conectar una GPU de consumo de AMD a una Raspberry Pi podría ser económicamente viable
"Nos equivocamos" es una de las frases más nobles y hermosas del idioma inglés
Fly.io atrae a desarrolladores similares a los de la plataforma Workers de Cloudflare
- Quieren la velocidad de desarrollo de un entorno PaaS
- Cloudflare mantuvo el enfoque PaaS junto con GPU y construyó Workers AI
En Runpod tomó un mes configurar un endpoint serverless, y fue caro y poco confiable
- Se pudieron usar créditos de Google Cloud para entregar el producto a los clientes
- Hay demanda de proveedores de GPU. No está claro si Fly podrá entrar en este mercado

Ideas equivocadas sobre las GPU

Dificultades técnicas para adoptar GPU

Prueba y error técnico

Por qué falló el modelo de negocio de GPU

Lecciones aprendidas

Lecturas relacionadas

1 comentarios

Opinión de Hacker News