Decisiones que destruyeron la confianza en Azure: el registro de un exingeniero de Azure Core
(isolveproblems.substack.com)- Un exingeniero describe en detalle cómo la toma de decisiones poco realista dentro de Microsoft Azure Core se fue acumulando hasta derivar en caos técnico y una pérdida de confianza
- Se señalan como problemas representativos el plan de portar funciones de Windows ignorando las limitaciones del hardware y la proliferación de 173 agentes de administración
- Esta estructura compleja sostiene cargas de trabajo críticas como OpenAI, Anthropic y la nube gubernamental, por lo que un solo error podría propagarse como una interrupción global
- Ante la falta de respuesta de la dirección, ocurrieron consecuencias posteriores como el deterioro de la relación con OpenAI, la pérdida de confianza del gobierno de EE. UU. y los retrasos en el lanzamiento de funciones
- En última instancia, esto habría llevado a la evaporación de 1 billón de dólares en valor de mercado, subrayando la importancia de reconocer la realidad técnica y mantener la simplicidad en la operación de infraestructura en la nube
Registro interno del colapso de confianza en Azure
- Recuerdo de un exingeniero sobre el proceso interno de decisiones poco realistas dentro del equipo Microsoft Azure Core y la confusión técnica y organizacional que provocó
- Desde su primer día en el equipo de I+D Overlake, presenció cómo se discutía un plan para portar funciones de Windows a la tarjeta Overlake ignorando las limitaciones del hardware
- Aunque existían 173 agentes de administración, la complejidad y falta de transparencia eran tan graves que nadie sabía con claridad qué hacían ni por qué eran necesarios
- Esta estructura sostiene cargas de trabajo críticas como OpenAI, Anthropic y nubes gubernamentales, por lo que un solo error podría convertirse en una caída global
- Según el autor, esto terminó derivando en la pérdida de confianza de OpenAI, la desconfianza pública del Departamento de Defensa de EE. UU. y la evaporación de 1 billón de dólares en valor de mercado
Ingreso a Azure Core y situación inicial
- El 1 de mayo de 2023, se incorporó como ingeniero senior al equipo de I+D Overlake, encargado de la tarjeta de offloading Azure Boost y de aceleradores de red
- Antes había participado en el equipo de Windows y en Core OS en mejoras del kernel y desarrollo de plataformas de contenedores, contribuyendo a tecnologías clave como Docker, AKS, App Services y Windows Sandbox
- También había participado en el diseño inicial de la tarjeta Overlake (2020~2021), proponiendo el protocolo de comunicación entre el host OS y la tarjeta aceleradora
- Regresó como un experto que había operado y desarrollado directamente la plataforma Azure durante más de 10 años
El plan irreal que vio en su primera reunión
- En su primer día, durante la reunión mensual de planificación del equipo, confirmó que existía un plan para portar componentes de Windows a la tarjeta Overlake
- Aunque la capacidad de RAM y el presupuesto energético de la tarjeta Overlake eran extremadamente limitados, el equipo discutía intentos de trasladar funciones de Windows
- Era un plan imposible dadas las especificaciones del hardware, e incluso se llegó a decir que “podríamos dejárselo a algunos desarrolladores junior”
- La organización estaba considerando seriamente avanzar hacia portar Windows a Linux para mantener el agente de administración de VM
- El autor lo percibió como un “plan desconectado de la realidad” y concluyó que toda la organización había comenzado una marcha hacia objetivos imposibles
Limitaciones técnicas y problemas estructurales
- En ese momento, el stack apenas podía manejar unas decenas de VM con una CPU Xeon de 400W, muy lejos del límite de 1,024 VM del hipervisor
- Existían problemas de degradación de rendimiento, como jitter en las VM de clientes debido al uso excesivo de recursos
- El plan de escalar este stack ineficiente trasladándolo a un pequeño ARM SoC era técnicamente inviable
- El autor expresa que “más urgente que aprender una tecnología nueva era devolver a toda la organización a la realidad”
Conversaciones internas sobre Azure Linux y Overlake
- En una conversación de 90 minutos con el responsable del Linux System Group, confirmó que se habían marcado 173 agentes como candidatos a portarse para la tarjeta Overlake
- Tras investigarlo, descubrió que nadie dentro de Microsoft podía explicar con claridad el papel, las interacciones o la razón de existir de esos 173 agentes
- El núcleo de Azure son las VM, el networking y el almacenamiento, y aun así se había acumulado una complejidad innecesaria sobre esa base
- Este conjunto de componentes fuera de control es el que administra cargas de trabajo clave como OpenAI, Anthropic y la nube gubernamental
Pérdida de confianza y consecuencias posteriores
- Esta estructura compleja se encontraba en un estado capaz de generar riesgos graves para la seguridad nacional y la continuidad del negocio
- Después, las cartas enviadas al CEO, al directorio y al EVP del área Cloud+AI no recibieron respuesta
- Como resultado, ocurrieron el deterioro de la relación con OpenAI, el colapso de la confianza del gobierno de EE. UU. (incluidas declaraciones públicas del secretario de Defensa), el desperdicio de ingeniería y la orden de migrar a Rust, y los retrasos en el lanzamiento de funciones
- El autor lo describe como un caso en el que se evaporó 1 billón de dólares en valor de mercado, y advierte a las empresas que usan Azure sobre los riesgos de depender de él en producción
Conclusión
- Queda expuesto cómo la acumulación de complejidad técnica, mala gestión y decisiones poco realistas dentro de Azure terminó destruyendo la confianza
- Es un caso de una organización a cargo de infraestructura crítica que, habiendo perdido el sentido de la realidad, continuó marchando hacia un fracaso estructural
- Se subraya la importancia de la estabilidad y la simplicidad en la infraestructura en la nube, así como de preservar el criterio técnico dentro de la organización
1 comentarios
Comentarios en Hacker News
Como alguien que usa Azure todos los días, si estas revelaciones son ciertas, siento que explican muchísimas cosas
La UI es torpe, la documentación es imprecisa como si la hubiera escrito una IA, y hay tantos tipos de servicios que ni siquiera queda claro cuál se debe usar
Es difícil configurarlo sin ayuda de consultores, e incluso después de configurarlo no hay certeza de que realmente funcione bien
Sinceramente, sorprende que esto siga funcionando
Desde entonces ya no confío en la documentación
Un servicio que corría de forma estable en GCP se volvió impredecible
Vi que Azure OpenAI filtraba respuestas a prompts de otros clientes cuando estaba bajo carga
También hay un tuit relacionado
Pero parece que a nadie le importa
Es una situación totalmente de lejano oeste
Me sorprende lo específicas que son las afirmaciones de este texto
Me pregunto si es un denunciante interno o simplemente un ex empleado resentido
Me llamó especialmente la atención la parte en la que dice que reportó directamente al CEO y a la junta directiva
Me resulta extraño que ese procedimiento sea “habitual” en la cultura corporativa de Estados Unidos
Tengo curiosidad por saber si Azure de verdad es así de inestable, según la experiencia de usuarios reales
Azure no detecta los problemas, no sabe cuál es la causa y ni siquiera parece importarle
Todo el equipo odia Azure
Me alegró que ahora se puedan usar modelos de OpenAI en AWS Bedrock y así evitar Azure
La confiabilidad sigue siendo un problema muy serio
La estrategia de “lanzarlo rápido y arreglarlo después” termina produciendo este tipo de resultados
Desde entonces dejé de confiar en eso
El texto se siente algo emocionalmente exagerado, y eso hace que se diluya su intención original
La estructura de rangos internos de Azure o los incidentes de nivel Sev2 no son algo tan especial
Azure tiene problemas, pero dado su tamaño es natural que tenga asperezas
Creo que la verdadera madurez está en intentar mejorar las cosas desde dentro del sistema
Azure puede ser un desastre, pero también es posible que el enfoque del autor haya sido parte del problema
Mi impresión de Azure es completamente negativa
El enfoque del autor más bien le resta credibilidad
La frecuencia con la que los empleados nuevos exclaman “wtf/day” parece casi un indicador de la salud de la organización
Incluso desde afuera, Azure da la impresión de que la calidad está por los suelos
En su apuro por alcanzar a AWS, fueron lanzando funciones a toda prisa y terminaron cayendo en un enorme pantano de deuda técnica
Incluso funciones básicas como IPv6, azcopy y las actualizaciones de VM siguen siendo inestables
Un ex compañero usa Azure todos los días, y cada vez que escucho su explosión de quejas entiendo mejor lo que dice este texto
Cuando elegí especializarme en cloud hace 12 años, probé Azure brevemente y me pareció una plataforma lenta y rota; este texto confirma esa impresión
Me llamó la atención la parte final del texto donde se dice que Microsoft despidió a 15,000 personas en 2025
Parece un ejemplo de la realidad detrás del boom de la IA
El contrato con OpenAI se debió a problemas de capacidad de GPU, y los despidos son un asunto aparte
El verdadero problema es la rotación de ingenieros y la falta de responsabilidad
En cada proyecto meten gente nueva y se pierde el sentido de pertenencia
La parte que dice que si comprometen el host se puede acceder a toda la memoria de las VM suena extremadamente peligrosa
Fue irónico ver juntas la cita de CNBC que dice que el salario de Satya Nadella subió 22% hasta 96.5 millones de dólares,
y el comentario de un astronauta de Artemis II diciendo que “los dos Outlook no funcionan”
El contenido del texto parece exagerado, pero desde mi experiencia operando sistemas similares también recuerdo haber tenido que pelear constantemente para mantener la estabilidad
He visto problemas parecidos en otras empresas, pero no con la gravedad que parece tener Azure
Este tipo de estructura probablemente terminará en un bucle de autodestrucción
Probé Azure en 2018, y era lento, caro y de pésima calidad
En los foros de GitHub, otros usuarios y yo tratábamos de resolver problemas donde ni siquiera funcionaban las características básicas
Este texto me aclara muchas de las dudas que tenía en ese momento
Personalmente, Google Cloud me pareció la plataforma mejor diseñada, aunque me decepciona que tenga menos soporte humano que AWS
Me cambiaron de representante tres veces en tres meses, y a veces ignoraban solicitudes de cuota o consultas sobre límites del sistema