No alquiles la nube, mejor aduéñate de ella

(blog.comma.ai)

11 puntos por GN⁺ 2026-02-06 | 3 comentarios | Compartir por WhatsApp

CommaAI realiza todo el entrenamiento de modelos y el procesamiento de datos en su propio centro de datos, operando directamente una infraestructura de unos 5 millones de dólares
Depender de la nube puede llevar a costos crecientes y pérdida de control, mientras que operar cómputo propio permite mejorar la calidad de ingeniería y reducir costos
El centro de datos está compuesto por aproximadamente 450 kW de energía, 600 GPU, 4 PB de almacenamiento SSD y una estructura simple de enfriamiento y red
La pila de software está diseñada con Ubuntu + Salt, almacenamiento minikeyvalue (mkv), planificador Slurm, entrenamiento distribuido con PyTorch y cómputo distribuido con miniray
Con esta arquitectura, comma.ai automatiza por completo el entrenamiento de modelos de conducción autónoma y logra un ahorro de costos de alrededor de 5 veces frente a la nube

Por qué operar un centro de datos propio

Depender de la nube genera aumento de costos y dependencia del proveedor
- Las empresas de nube facilitan el onboarding, pero dificultan el offboarding
- Con el uso continuo, es fácil quedar atrapado en una estructura de costos alta
Operar cómputo propio impulsa la autonomía tecnológica y una cultura de ingeniería más eficiente
- La nube requiere gestión centrada en APIs y sistemas de pago, pero un centro de datos exige resolver problemas técnicos reales centrados en energía, cómputo y ancho de banda
Incluso desde la perspectiva de ingeniería de ML, las restricciones de recursos impulsan la optimización del código y mejoras de fondo
- En la nube basta con aumentar el presupuesto, pero en infraestructura propia la mejora de rendimiento es obligatoria
En costos, comma.ai invirtió unos 5 millones de dólares; calcula que hacer el mismo trabajo en la nube habría requerido más de 25 millones de dólares

Componentes del centro de datos

Energía
- Uso máximo de 450 kW, con un costo eléctrico de 540,112 dólares en 2025
- La tarifa eléctrica en San Diego es de 40 centavos/kWh, unas 3 veces el promedio mundial
- Se menciona un futuro plan de generación eléctrica propia
Enfriamiento
- Usa enfriamiento con aire exterior, más eficiente en consumo eléctrico que un sistema CRAC
  - Circulación de aire con 2 ventiladores de entrada y 2 de salida de 48 pulgadas
  - Bucle de control PID para ajustar automáticamente temperatura y humedad (manteniéndola por debajo de 45%)
  - El consumo eléctrico se mantiene en el rango de decenas de kW
Servidores y almacenamiento
- Está compuesto por 75 TinyBox Pro (600 GPU en total), fabricados internamente
  - Cada equipo tiene 2 CPU + 8 GPU y se usa tanto para entrenamiento como para cómputo general
  - La fabricación propia facilita el mantenimiento
- El almacenamiento se basa en Dell R630/R730, con un total de 4 PB SSD
  - Estructura sin redundancia (non-redundant), con 20 Gbps de velocidad de lectura por nodo
- La red está compuesta por 3 switches Z9264F de 100 Gbps y 2 switches Infiniband

Infraestructura de software

Configuración base
- Todos los servidores usan Ubuntu + arranque PXE y se administran con Salt
- Una estructura de maestro único mantiene un 99% de disponibilidad
Almacenamiento distribuido — minikeyvalue (mkv)
- Los datos de conducción para entrenamiento se guardan en 3 PB de almacenamiento sin redundancia
  - 1 TB/s de velocidad de lectura, lo que permite entrenar directamente sin caché
- Un arreglo de 300 TB para caché y un arreglo con almacenamiento redundante guardan modelos y métricas
- Cada arreglo se administra con un servidor maestro único
Gestión de trabajos — Slurm
- Programa tanto trabajos de entrenamiento con PyTorch como trabajos distribuidos con miniray
Entrenamiento distribuido — PyTorch + FSDP
- Opera dos particiones de entrenamiento conectadas por una red Infiniband
- Un framework propio de entrenamiento automatiza el loop de entrenamiento
- Ofrece un servicio de seguimiento de experimentos de modelos
  - Incluye dashboard, métricas personalizadas y gestión de pesos del modelo
  - Las métricas más recientes del modelo están publicadas
Cómputo distribuido — miniray
- Planificador de tareas open source ligero que ejecuta código Python en máquinas inactivas
  - Más simple que Dask, administra tareas con un servidor central Redis
  - Los workers con GPU realizan inferencia de modelos con Triton Inference Server
- Puede escalar en paralelo a cientos de máquinas
  - Ejemplo: el récord de Controls Challenge se logró usando 1 hora del centro de datos
Gestión de código — monorepo basado en NFS
- Todo el codebase ocupa menos de 3 GB y se replica en todas las estaciones de trabajo
- Al iniciar un trabajo, se sincronizan el código local y los paquetes, y termina en menos de 2 segundos
- Garantiza que todos los trabajos distribuidos se ejecuten con el mismo código y entorno

Pipeline de entrenamiento integrado

La tarea más compleja en comma es entrenar modelos de conducción con enfoque on-policy
Para este entrenamiento, es necesario ejecutar conducción simulada aplicando los pesos más recientes del modelo para generar datos de entrenamiento
Todo el pipeline puede ejecutarse con un único comando como el siguiente
- ./training/train.sh N=4 partition=tbox2 trainer=mlsimdriving dataset=/home/batman/xx/datasets/lists/train_500k_20250717.txt vision_model=8d4e28c7-7078-4caf-ac7d-d0e41255c3d4/500 data.shuffle_size=125k optim.scheduler=COSINE bs=4
Para ejecutar este entrenamiento se utiliza toda la infraestructura descrita arriba
Aunque es un solo comando simple, coordina múltiples componentes

Conclusión

comma.ai logró reducir costos y ganar autonomía tecnológica operando su propio centro de datos
Con el mismo enfoque, empresas o personas también podrían construir su propia infraestructura

3 comentarios

kaydash 2026-02-06

¡La memoria es cara!

harryhan2435 2026-02-12

jajajajajajajajajajaja

GN⁺ 2026-02-06

Opiniones de Hacker News

En nuestra industria, poseer vs. nube están en los extremos de un espectro
① La nube requiere menos inversión inicial (capex) y menos personal, pero tiene costos operativos (opex) altos y variables
② Managed Private Cloud es a lo que nos dedicamos: lo administramos sobre software open source y cuesta alrededor de 50% menos que AWS
③ Rented Bare Metal es un modelo donde te resuelven el financiamiento del hardware, y sale 90% más barato que AWS
④ Comprar directamente y usar colocation es lo más barato si tienes la capacidad técnica y la escala
Empresas como Hetzner operan con un ROI a 3 años, y las opciones 3 y 4 encajan para empresas grandes o donde la infraestructura es clave
Para startups, la 1 es lo realista; para pymes, la 2 (lithus.eu)
- El problema es que la estructura de costos de la nube no se debe simplemente al precio del hardware, sino a que te empuja hacia arquitecturas complejas, lo que aumenta la ineficiencia
  Los ‘servicios administrados’ de AWS están diseñados de modo que, cuanto más mejora el usuario la eficiencia de sus servidores, menos gana AWS
  Si simplemente pones 4 servidores Java sobre EC2 y una base de datos replicada, es mucho más eficiente
  Al final, las facturas absurdas de AWS aparecen cuando abusas de demasiados servicios
- (derek@ de Carolina Cloud) Nosotros también preferimos el modelo (4), pero los usuarios con menos capacidad técnica se quedan en los modelos 1–3 y terminan atrapados en la estructura de alto costo de la nube pública
  Dicen que es ‘pago por uso’, pero en la práctica trae cargos base y consumos mínimos, así que termina siendo mucho más caro (carolinacloud.io)
- Hetzner es una opción atractiva
  Tener que administrar tú mismo servicios como Postgres o VPN puede pesar, pero a partir de 10–15 mil dólares al mes conviene más que AWS
  Hay riesgo, pero vale la pena asumirlo
- Yo alquilo un servidor bare metal de 500 dólares al mes, y el tiempo de administración es apenas unas horas al año
  Tal vez sea porque mis requisitos son simples, pero me parece mucho mejor que una nube excesivamente compleja
- Hace 2 años nos pasamos a colocation, y ahora tenemos más capacidad por 30% del costo
  También existe el beneficio de las bajadas tardías de precio en RAM/almacenamiento
  Eso sí, hay que prestar un poco más de atención al cumplimiento normativo
Antes a esto simplemente se le llamaba centro de datos
Es un concepto que ya existía antes de la nube, y al final es otra vez el ciclo de propiedad vs. alquiler y centralización vs. descentralización
Cuando una empresa elige de forma extrema solo un lado, vuelve a toparse con los mismos problemas
- Lo interesante es que la nube resultaba atractiva para finanzas por el efecto de ahorro fiscal
  Pero con leyes recientes (OBB) que permiten tratar el CapEx como gasto, se está viendo un regreso hacia on-prem
- Entonces, ¿por qué no aparece una alternativa de nube competitiva en precio?
  AWS y Azure dominan el mercado y no tienen incentivos para bajar precios, y Google tiene un riesgo alto de cerrar servicios
- Antes de la nube, el equipo interno de infraestructura era el cuello de botella
  La nube estandarizó eso y lo simplificó con un sistema de facturación único
  Además, fuera de EE. UU. la compra de servidores era lenta, así que la ventaja de velocidad de la nube era grande
- Los centros de datos on-prem tienen una carga operativa alta y consumen muchos recursos de ingeniería
  Por eso esta discusión vuelve una y otra vez
- La verdadera innovación de la nube fue “hacer explícito el costo por servicio”
  En lugar de “¿a quién tengo que pedírselo?”, ahora se puede acceder por API
  Ese contexto está bien resumido en este texto
Incluso en una zona como San Diego, donde controlar la temperatura es fácil, el enfriamiento con aire exterior es riesgoso
La humedad y los contaminantes dañan los servidores rápidamente
En cambio, métodos como los enfriadores de rueda entálpica (kyotocooling) son eficientes y consumen poca energía en relación con la capacidad de enfriamiento
Hay que tener cuidado con el enfriamiento por aire exterior porque puede acortar mucho la vida útil del equipo
- También hay casos de buenos resultados con filtración y manteniendo la humedad por debajo de 45%
- No sabía que había que preocuparse por ese tipo de cosas
  Por eso yo solo uso la nube — así evito este tipo de ‘riesgos desconocidos’
Lo realista es combinar on-prem y nube
La infraestructura crítica se deja en una nube confiable, y cosas como trabajos de Slurm se corren en servidores propios
El colocation sigue siendo una opción válida, y también vale la pena considerar HPC para investigación
En Noruega, incluso empresas privadas pueden usar HPC de investigación pagando
- Yo operé granjas de servidores en dos ubicaciones en Italia; 5 empleados las administraban y manteníamos casi 100% de disponibilidad
  Con 800 mil euros al año ahorrábamos entre 7 y 8 millones de euros en costos de nube
- Muchos desarrolladores creen por error que no pueden encargarse del hosting
  En realidad es más fácil de lo que parece, y también tiene la gracia de resolver problemas técnicos
- Si alquilas espacio en lugares como Equinix o Global Switch, ellos se encargan de la energía, el enfriamiento, el cableado, etc.
  También es totalmente posible tener tus propias salas de servidores en dos ubicaciones
- Nosotros seguimos usando Azure para servicios dirigidos a usuarios
  Para servicios web que no necesitan GPU, la nube es más eficiente
  GitHub también sigue siendo un servicio confiable para nosotros
- (En tono de broma) Una vez un daemon de Postgres se enredó en el pool de Slurm y Rust se descontroló
  Al final lo estabilizamos, pero desde la perspectiva de un ingeniero de hardware, el mundo del software es caótico
Al inicio de un proyecto, se puede arrancar en AWS con 250 dólares al mes, y cuando llegas a 30 mil dólares mensuales, pasarte a colocation
La clave es saber calcular costos — un buen ingeniero debería poder proponerlo a la dirección con números
- Más allá de la simple cuenta, también hay que pensar qué tipo de talento quieres atraer y qué negocio quieres construir
  Si es una empresa que entrena modelos de ML, quizá le convenga más tener infraestructura propia
- Pero en la mayoría de las empresas, los ingenieros no participan en la elección de la plataforma
  En 99.999999% de los casos, la dirección ya decidió y solo lo comunica
Al principio de mi carrera, la nube era la opción obvia, pero ahora on-prem vuelve a estar de moda
En 10 años quizá vuelva la tendencia contraria
- Por mi experiencia, los equipos que impulsaban on-prem siempre subestimaban el cansancio del mantenimiento
  En lugares como startups, donde hay que desarrollar rápido, eso más bien te frena
  En cambio, en empresas que ya entraron en modo mantenimiento, on-prem sí era eficiente
  Con la edad, se vuelve más importante “terminar rápido y dentro del presupuesto”, y operar tu propia infraestructura pierde atractivo
- Yo veo esta tendencia no solo como un ciclo tecnológico, sino como una reacción contra una sociedad donde nada se posee
  Cuando todo —música, casa, auto— se vuelve suscripción, también aparece un impulso empresarial por recuperar la soberanía computacional
- Estos ciclos siempre han existido
  Mainframe → PC → cuarto de servidores → nube → edge computing: es la repetición de centralización ↔ descentralización
  Al final, cuando cambian la tecnología y las prioridades, todo vuelve
  Cuando reaparezca la frase “la red es la computadora”, será otra vuelta más al ciclo
- (Broma) Lo siguiente probablemente sea la etapa espacial (Skynet)
La razón por la que la mayoría de las empresas evita on-prem es la gestión del riesgo
Las buenas empresas concentran el riesgo en su ventaja competitiva principal
No hay que juzgarlo solo por costo, sino por costo ajustado por riesgo
- Pero hoy también queda la duda de si las empresas tienen la capacidad de evaluar ese riesgo con precisión
  Porque la competitividad en precio también es un factor de diferenciación
- La clave es enfocarse en el negocio principal
  Si no te ayuda a vender mejor un producto que hoy no logras vender, no deberías perder tiempo con un centro de datos
  La excepción es un caso como Google, donde la propia infraestructura forma parte de la ventaja competitiva del producto
- Al final, en la mayoría de los casos, es una pelea donde Opex le gana a Capex
La verdadera ventaja de on-prem es la libertad, el control y la privacidad
No es solo una cuestión de dinero; se parece más a poseer una casa vs. rentarla
- Pero incluso en el texto original, el costo aparecía como el último punto, y lo central eran las otras ventajas
La doctrina tipo MBA de los años 2010 era “mueve todo a la nube”
Se veía como la respuesta correcta transferir el riesgo y el costo a un tercero
Pero en la práctica, nuestro centro de datos era mucho más barato, y las alzas en las suscripciones de software fueron mucho mayores que en hardware
- Claro, AWS tiene centros de datos redundantes en todo el mundo, así que su nivel de resiliencia es distinto
  Pero si consideras también el costo laboral y de gestión, una comparación de costo simple no tiene sentido
  Un solo tornado podría llevarse por delante a una empresa, así que al final hay que decidir según el valor frente al riesgo

No alquiles la nube, mejor aduéñate de ella

Por qué operar un centro de datos propio

Componentes del centro de datos

Energía

Enfriamiento

Servidores y almacenamiento

Infraestructura de software

Configuración base

Almacenamiento distribuido — minikeyvalue (mkv)

Gestión de trabajos — Slurm

Entrenamiento distribuido — PyTorch + FSDP

Cómputo distribuido — miniray

Gestión de código — monorepo basado en NFS

Pipeline de entrenamiento integrado

Conclusión

3 comentarios

Opiniones de Hacker News

No alquiles la nube, mejor aduéñate de ella

Por qué operar un centro de datos propio

Componentes del centro de datos

Energía

Enfriamiento

Servidores y almacenamiento

Infraestructura de software

Configuración base

Almacenamiento distribuido — minikeyvalue (mkv)

Gestión de trabajos — Slurm

Entrenamiento distribuido — PyTorch + FSDP

Cómputo distribuido — miniray

Gestión de código — monorepo basado en NFS

Pipeline de entrenamiento integrado

Conclusión

Lecturas relacionadas

3 comentarios

Opiniones de Hacker News