- Informe que recopila respuestas de seguimiento a varias preguntas de la comunidad, luego de compartir hace 2 años la experiencia de migrar de AWS a bare metal y ahorrar 230 mil dólares al año. También revela datos reales de operación durante 2 años y afirma haber logrado más de $1.2 millones en ahorro anual
- A través de la operación real, el ahorro aumentó a más de 1.2 millones de dólares al año, y se reinvirtió en servidores para resúmenes de incidentes basados en IA y corrección automática de código, lo que llevó a una mejora en la calidad del servicio
- Mantienen 99.993% de disponibilidad sobre una pila MicroK8s + Ceph, y eliminaron puntos únicos de falla con una configuración de doble centro de datos
- Explican temas clave como costos reales de operación, respuesta a incidentes, vida útil del hardware, certificaciones de seguridad y servicios alternativos a la nube con cifras concretas
- Como resultado, mejoraron tanto la estabilidad como la eficiencia en costos, y concluyen que para sistemas con carga constante de cierta escala, bare metal es una opción más razonable
Resumen de los resultados operativos de 2 años
- Durante 24 meses operaron la pila MicroK8s + Ceph en producción y alcanzaron una disponibilidad de 99.993%
- Para resolver el problema de un solo rack, añadieron un segundo rack en Frankfurt y lo conectaron al rack principal de París con una conexión DWDM redundante
- Con NVMe local y la eliminación de interferencias de ruido, redujeron en 19% la latencia para los clientes
- Reinvirtieron el dinero ahorrado en la compra de servidores de IA bare metal, ampliando las funciones de resumen de alertas basado en LLM y corrección automática de código de OneUptime
Ahorro y comparación de costos
- El ahorro estimado inicial era de $230,000 al año, pero ahora aumentó a más de $1.2M
- Esto equivale a aproximadamente 76% de ahorro frente a AWS
- En términos de salarios globales, es una cantidad equivalente al sueldo anual de 2 a 5 ingenieros
- Incluso aplicando Savings Plans / Reserved Instances, bare metal sigue siendo más conveniente
- Los Savings Plans no aplican a S3, egress ni Direct Connect
- Tampoco pueden reducirse costos como el control plane de EKS por $1,260/mes o el NAT Gateway por $600/mes
- Al tratarse de una carga de trabajo estable 24/7, la eficiencia de las reserved instances era limitada
Migración y costos operativos
- La migración inicial se completó con alrededor de 1 semana de trabajo de ingeniería
- La mayor parte eran tareas que ya hacían falta, como poner al día IaC y reforzar las políticas de respaldo
- Los costos operativos actuales son los siguientes:
- Administración directa: unas 24 horas por trimestre (incluyendo parches y actualizaciones de firmware)
- Remote Hands: solo hicieron falta 2 intervenciones en 24 meses (principalmente por problemas de disco), con un tiempo promedio de respuesta de 27 minutos
- Automatización: arranque PXE (Tinkerbell), gestión de imágenes Talos, automatización de configuración con Flux/Terraform
- En comparación con la época en AWS, el equipo de operaciones incluso vio aumentar la velocidad de lanzamiento, además de eliminar la carga de las “reuniones de optimización de costos”
Preparación ante fallas y aseguramiento de disponibilidad
- Añadieron un segundo rack en Frankfurt y eliminaron puntos únicos de falla con conexiones DWDM por doble ruta
- Configuraron mirroring de Ceph basado en replicación asíncrona y un doble control plane
- También añadieron una ruta de administración basada en 4G/satélite para permitir acceso remoto durante fallas de red
- Están en proceso de pasar de MicroK8s a Talos
- Siguen manteniendo un clúster de respaldo para failover en AWS y realizan ensayos trimestrales de recuperación ante desastres
- Con un Ingress basado en Anycast+BGP, también mejoraron el retraso del cambio por DNS a menos de 1 minuto
- Mantuvieron 99.993% de disponibilidad durante 2 años y no se vieron afectados por incidentes recientes en regiones de AWS
Hardware y gestión de CapEx
- Operan los servidores con una depreciación de 5 años como referencia (2×EPYC 9654, 1TB de RAM, configuración NVMe)
- Cuando el rendimiento se satura, los mueven a un clúster de analítica y los reemplazan por servidores nuevos
- Gracias al ahorro, ahora pueden hacer un refresh del 40% cada 2 años y aun así seguir ahorrando costos anuales frente a AWS
- Tienen garantía extendida de Supermicro + 3 servidores de repuesto
- La vida útil real es de 7 a 8 años, pero la estiman conservadoramente en 5 años
Lógica para sustituir servicios administrados
- La filosofía de producto de OneUptime es permitir self-hosting, así que necesitan mantener la misma pila
- Conservan la consistencia de open stack con Kubernetes, Postgres, Redis, ClickHouse, etc.
- Evolucionaron de Terraform + EKS + RDS a MicroK8s + Argo Rollouts + Ceph
- Usan open source puro sin forks propios
- Aun así, siguen usando nube en paralelo: AWS Glacier (backups), CloudFront (caché en el edge) e instancias temporales para pruebas de carga
- La nube encaja mejor para la elasticidad, mientras que bare metal se ajusta mejor a la carga base
Red y seguridad
- Aseguraron 2 enlaces de 5Gbps (percentil 95), 8 veces más baratos que el egress en AWS
- La defensa contra DDoS se resolvió con Cloudflare al frente de todo
- Aseguraron una red de administración independiente basada en 4G/satélite para acceso remoto durante incidentes
Cumplimiento y respuesta a auditorías
- Mantienen certificaciones SOC 2 Type II e ISO 27001
- Aprovechan la documentación del centro de colocation sobre certificación Tier III, registros de acceso y CCTV
- Usan los logs de configuración de Terraform/Talos como evidencia del historial de cambios
- Según comentan, los auditores consideraron esto más confiable que capturas de pantalla de la consola de AWS
Comparación con alternativas en la nube
- Comparan Hetzner, OVH, Leaseweb, Equinix Metal y AWS Outposts
- Los hyperscalers siguen teniendo costos altos de egress
- Los hosts europeos tienen dificultades para cumplir los requisitos de SLA y de clústeres Ceph a gran escala
- Equinix Metal tiene un premium de 25~30% frente al CapEx
- Operar hardware propio tiene ventaja en densidad energética y libertad de actualización
- En resultado, gracias a una configuración de rack de 15kW y a la posibilidad de reutilizar componentes, la colocation resulta superior tanto en costo como en rendimiento
Medición de la carga operativa (TOIL)
- Semanal: parches de kernel/firmware y revisión de Ceph (1 hora)
- Mensual: actualización canary del control plane de Kubernetes (2 horas)
- Trimestral: simulacros de DR, planeación de capacidad y revisión de contratos con carriers (12 horas)
- En total, unas 14 horas al mes, similar a la época de AWS, pero con el enfoque moviéndose de “seguir costos” a “automatizar operaciones”
Casos donde la nube sigue siendo válida
- Cuando la carga de trabajo tiene un patrón de picos o estacional
- Cuando hay alta dependencia de servicios administrados como Aurora Serverless, Kinesis o Step Functions
- Cuando no existe capacidad interna para operar directamente Kubernetes, Ceph, monitoreo y respuesta a incidentes
- Es decir, para negocios en etapa inicial o con carga muy variable, la nube sigue teniendo ventaja
Planes a futuro
- Planean publicar un módulo de Terraform y un runbook para prever presupuestos de colocation
- También preparan un post técnico en profundidad sobre la experiencia operando con Talos
- Seguirán respondiendo al feedback en HN y Reddit y compartiendo casos centrados en cifras reales
3 comentarios
Hace 2 años que migramos de AWS a bare metal: respondiendo preguntas sobre salir de AWS
Trabajo en una empresa que usa AWS con mucho entusiasmo, aunque no utilizamos en absoluto ningún servicio exclusivo de AWS.
Una historia entre triste y absurda: vi que en esta decisión influyó mucho el deseo sumamente personal de algunos líderes de desarrollar su propia carrera.
Opinión de Hacker News
AWS es demasiado caro. Hay menos razones de las que parece para montar todo un sistema completamente sobre AWS. Antes todo el mundo sabía operar servidores bare metal por su cuenta, pero ahora parece que eso se olvidó. Nuestro equipo mantuvo 99.993% de disponibilidad durante más de 730 días, y además evitó la reciente caída de una región de AWS. Sí usamos Cloudflare para defensa contra DDoS, y entiendo que manejar DNS o el ingress puede volverse un trabajo de tiempo completo. Pero unas cuantas arquitecturas de microservicios y una base de datos se pueden operar directamente sin problema. AWS cobra de más para la mayoría de las empresas
La nube al principio empezó como un servicio simple y con buena relación costo-beneficio, pero ahora está enredada con más de 200 servicios complejos. Si no lo administras bien, la factura se dispara
La verdadera función de AWS es: (1) permitir la expansión organizacional y ciertas estructuras de poder, (2) hacer posible tratarlo contablemente como OpEx en lugar de CapEx, y (3) ocultar estructuras de personal incompetentes. Antes se podía operar un datacenter con 5 a 10 personas, pero ahora aparecen organizaciones DevOps de 3000 personas
La clave de este éxito es una carga constante 24/7. En realidad, la mayoría de las empresas tienen un patrón parecido
La clave está en elasticidad vs. carga base. La nube solo conviene cuando hay picos explosivos de tráfico, como en recolección de datos. En la mayoría de los casos, bare metal es mejor
En la década de 2010 el hardware y la red eran lentos, pero ahora el rendimiento y la eficiencia de CPU mejoraron cientos de veces. Lo que antes requería 64 servidores hoy puede resolverse con 1. En el futuro podría llegarse a una proporción de 100:1. En este contexto, las ventajas de la nube se reducen cada vez más
Desde la perspectiva de un empleado de Amazon, administrar Kubernetes por cuenta propia es demasiado riesgoso. Componentes como etcd son inestables, y hasta había que aplicar parches manualmente. El self-hosting del que habla el artículo subestima los riesgos
Muchas startups ni siquiera habrían podido existir con lo caro que es AWS. Por ejemplo, algo como descargas gratuitas de GeoIP (enlace) habría sido imposible. La nube es lenta, y tiene alta latencia de disco y sobrecarga de CPU. Debajo de 10 mil dólares al mes puede estar bien, pero por encima de eso bare metal es mucho más eficiente
En una empresa donde trabajé también había poco tráfico, pero querían migrar a AWS. La razón era simple: querían poner AWS en el CV. No solo los desarrolladores, también la gerencia. “Lideré una migración a AWS” se veía bien para la carrera profesional. Al final la empresa fue vendida y la oficina quedó vacía. Quizá ahora “salí de AWS” se vuelva un nuevo punto de valor profesional
Al final, lo importante es qué se quiere hacer