3 puntos por GN⁺ 27 일 전 | 1 comentarios | Compartir por WhatsApp
  • Un exingeniero describe en detalle cómo la toma de decisiones poco realista dentro de Microsoft Azure Core se fue acumulando hasta derivar en caos técnico y una pérdida de confianza
  • Se señalan como problemas representativos el plan de portar funciones de Windows ignorando las limitaciones del hardware y la proliferación de 173 agentes de administración
  • Esta estructura compleja sostiene cargas de trabajo críticas como OpenAI, Anthropic y la nube gubernamental, por lo que un solo error podría propagarse como una interrupción global
  • Ante la falta de respuesta de la dirección, ocurrieron consecuencias posteriores como el deterioro de la relación con OpenAI, la pérdida de confianza del gobierno de EE. UU. y los retrasos en el lanzamiento de funciones
  • En última instancia, esto habría llevado a la evaporación de 1 billón de dólares en valor de mercado, subrayando la importancia de reconocer la realidad técnica y mantener la simplicidad en la operación de infraestructura en la nube

Registro interno del colapso de confianza en Azure

  • Recuerdo de un exingeniero sobre el proceso interno de decisiones poco realistas dentro del equipo Microsoft Azure Core y la confusión técnica y organizacional que provocó
  • Desde su primer día en el equipo de I+D Overlake, presenció cómo se discutía un plan para portar funciones de Windows a la tarjeta Overlake ignorando las limitaciones del hardware
  • Aunque existían 173 agentes de administración, la complejidad y falta de transparencia eran tan graves que nadie sabía con claridad qué hacían ni por qué eran necesarios
  • Esta estructura sostiene cargas de trabajo críticas como OpenAI, Anthropic y nubes gubernamentales, por lo que un solo error podría convertirse en una caída global
  • Según el autor, esto terminó derivando en la pérdida de confianza de OpenAI, la desconfianza pública del Departamento de Defensa de EE. UU. y la evaporación de 1 billón de dólares en valor de mercado

Ingreso a Azure Core y situación inicial

  • El 1 de mayo de 2023, se incorporó como ingeniero senior al equipo de I+D Overlake, encargado de la tarjeta de offloading Azure Boost y de aceleradores de red
  • Antes había participado en el equipo de Windows y en Core OS en mejoras del kernel y desarrollo de plataformas de contenedores, contribuyendo a tecnologías clave como Docker, AKS, App Services y Windows Sandbox
  • También había participado en el diseño inicial de la tarjeta Overlake (2020~2021), proponiendo el protocolo de comunicación entre el host OS y la tarjeta aceleradora
  • Regresó como un experto que había operado y desarrollado directamente la plataforma Azure durante más de 10 años

El plan irreal que vio en su primera reunión

  • En su primer día, durante la reunión mensual de planificación del equipo, confirmó que existía un plan para portar componentes de Windows a la tarjeta Overlake
  • Aunque la capacidad de RAM y el presupuesto energético de la tarjeta Overlake eran extremadamente limitados, el equipo discutía intentos de trasladar funciones de Windows
  • Era un plan imposible dadas las especificaciones del hardware, e incluso se llegó a decir que “podríamos dejárselo a algunos desarrolladores junior”
  • La organización estaba considerando seriamente avanzar hacia portar Windows a Linux para mantener el agente de administración de VM
  • El autor lo percibió como un “plan desconectado de la realidad” y concluyó que toda la organización había comenzado una marcha hacia objetivos imposibles

Limitaciones técnicas y problemas estructurales

  • En ese momento, el stack apenas podía manejar unas decenas de VM con una CPU Xeon de 400W, muy lejos del límite de 1,024 VM del hipervisor
  • Existían problemas de degradación de rendimiento, como jitter en las VM de clientes debido al uso excesivo de recursos
  • El plan de escalar este stack ineficiente trasladándolo a un pequeño ARM SoC era técnicamente inviable
  • El autor expresa que “más urgente que aprender una tecnología nueva era devolver a toda la organización a la realidad”

Conversaciones internas sobre Azure Linux y Overlake

  • En una conversación de 90 minutos con el responsable del Linux System Group, confirmó que se habían marcado 173 agentes como candidatos a portarse para la tarjeta Overlake
  • Tras investigarlo, descubrió que nadie dentro de Microsoft podía explicar con claridad el papel, las interacciones o la razón de existir de esos 173 agentes
  • El núcleo de Azure son las VM, el networking y el almacenamiento, y aun así se había acumulado una complejidad innecesaria sobre esa base
  • Este conjunto de componentes fuera de control es el que administra cargas de trabajo clave como OpenAI, Anthropic y la nube gubernamental

Pérdida de confianza y consecuencias posteriores

  • Esta estructura compleja se encontraba en un estado capaz de generar riesgos graves para la seguridad nacional y la continuidad del negocio
  • Después, las cartas enviadas al CEO, al directorio y al EVP del área Cloud+AI no recibieron respuesta
  • Como resultado, ocurrieron el deterioro de la relación con OpenAI, el colapso de la confianza del gobierno de EE. UU. (incluidas declaraciones públicas del secretario de Defensa), el desperdicio de ingeniería y la orden de migrar a Rust, y los retrasos en el lanzamiento de funciones
  • El autor lo describe como un caso en el que se evaporó 1 billón de dólares en valor de mercado, y advierte a las empresas que usan Azure sobre los riesgos de depender de él en producción

Conclusión

  • Queda expuesto cómo la acumulación de complejidad técnica, mala gestión y decisiones poco realistas dentro de Azure terminó destruyendo la confianza
  • Es un caso de una organización a cargo de infraestructura crítica que, habiendo perdido el sentido de la realidad, continuó marchando hacia un fracaso estructural
  • Se subraya la importancia de la estabilidad y la simplicidad en la infraestructura en la nube, así como de preservar el criterio técnico dentro de la organización

1 comentarios

 
GN⁺ 27 일 전
Comentarios en Hacker News
  • Como alguien que usa Azure todos los días, si estas revelaciones son ciertas, siento que explican muchísimas cosas
    La UI es torpe, la documentación es imprecisa como si la hubiera escrito una IA, y hay tantos tipos de servicios que ni siquiera queda claro cuál se debe usar
    Es difícil configurarlo sin ayuda de consultores, e incluso después de configurarlo no hay certeza de que realmente funcione bien
    Sinceramente, sorprende que esto siga funcionando

    • Antes me impresionaba la documentación de Azure, pero después de una semana implementando, todo fracasó en el entorno de pruebas porque GraphAPI no funcionaba como decía la documentación
      Desde entonces ya no confío en la documentación
    • He trabajado con consultores de Azure, y ellos también odian Azure
    • La gerencia decidió migrar a AKS porque había muchos créditos, pero los pods se caían aleatoriamente y la latencia de disco en los nodos de base de datos se disparó
      Un servicio que corría de forma estable en GCP se volvió impredecible
  • Vi que Azure OpenAI filtraba respuestas a prompts de otros clientes cuando estaba bajo carga
    También hay un tuit relacionado
    Pero parece que a nadie le importa

    • Me pregunto qué significa exactamente “Azure OpenAI”: ¿GitHub Copilot, Microsoft Copilot, la API de OpenAI, o alguno de los LLM alojados en Azure?
      Es una situación totalmente de lejano oeste
  • Me sorprende lo específicas que son las afirmaciones de este texto
    Me pregunto si es un denunciante interno o simplemente un ex empleado resentido
    Me llamó especialmente la atención la parte en la que dice que reportó directamente al CEO y a la junta directiva
    Me resulta extraño que ese procedimiento sea “habitual” en la cultura corporativa de Estados Unidos
    Tengo curiosidad por saber si Azure de verdad es así de inestable, según la experiencia de usuarios reales

    • En la práctica, opero AWS, Azure y GCP como SRE, y entre el 80% y el 90% de los incidentes ocurren en Azure
      Azure no detecta los problemas, no sabe cuál es la causa y ni siquiera parece importarle
      Todo el equipo odia Azure
    • Azure tiene demasiados problemas de consistencia y race conditions
      Me alegró que ahora se puedan usar modelos de OpenAI en AWS Bedrock y así evitar Azure
      La confiabilidad sigue siendo un problema muy serio
    • Las grandes empresas a menudo toman decisiones que sacrifican la calidad por métricas de corto plazo
      La estrategia de “lanzarlo rápido y arreglarlo después” termina produciendo este tipo de resultados
    • Una vez vi un informe de seguridad sobre cómo escapar de un contenedor en Azure y descubrir una vulnerabilidad en el controlador de gestión
      Desde entonces dejé de confiar en eso
    • Aunque me dieran créditos gratis, prefiero pagar por AWS o GCP
  • El texto se siente algo emocionalmente exagerado, y eso hace que se diluya su intención original
    La estructura de rangos internos de Azure o los incidentes de nivel Sev2 no son algo tan especial
    Azure tiene problemas, pero dado su tamaño es natural que tenga asperezas
    Creo que la verdadera madurez está en intentar mejorar las cosas desde dentro del sistema

    • Enviar una carta directamente a la junta directiva es una acción que casi nunca termina bien dentro de una organización
      Azure puede ser un desastre, pero también es posible que el enfoque del autor haya sido parte del problema
    • AWS y GCP tienen una UX/DX mucho mejor, mientras que Azure ni siquiera te dice por qué no funciona
      Mi impresión de Azure es completamente negativa
    • Microsoft es la solución por defecto para organismos gubernamentales, pero proponer una reescritura total no es realista
      El enfoque del autor más bien le resta credibilidad
    • Me sorprendió la estructura en la que personas de rangos bajos, según menciona el autor, quedaban a cargo de sistemas clave
    • Hay mucha gente que “grita que todo está roto”, pero eso también puede ser un problema de inercia organizacional
      La frecuencia con la que los empleados nuevos exclaman “wtf/day” parece casi un indicador de la salud de la organización
      Incluso desde afuera, Azure da la impresión de que la calidad está por los suelos
      En su apuro por alcanzar a AWS, fueron lanzando funciones a toda prisa y terminaron cayendo en un enorme pantano de deuda técnica
      Incluso funciones básicas como IPv6, azcopy y las actualizaciones de VM siguen siendo inestables
  • Un ex compañero usa Azure todos los días, y cada vez que escucho su explosión de quejas entiendo mejor lo que dice este texto
    Cuando elegí especializarme en cloud hace 12 años, probé Azure brevemente y me pareció una plataforma lenta y rota; este texto confirma esa impresión

  • Me llamó la atención la parte final del texto donde se dice que Microsoft despidió a 15,000 personas en 2025
    Parece un ejemplo de la realidad detrás del boom de la IA

    • Pero creo que esa parte es uno de los argumentos más débiles del texto
      El contrato con OpenAI se debió a problemas de capacidad de GPU, y los despidos son un asunto aparte
      El verdadero problema es la rotación de ingenieros y la falta de responsabilidad
      En cada proyecto meten gente nueva y se pierde el sentido de pertenencia
  • La parte que dice que si comprometen el host se puede acceder a toda la memoria de las VM suena extremadamente peligrosa

    • Ni siquiera puedo imaginar un entorno donde esa arquitectura haya parecido una buena idea
    • No sé qué esperaba el autor
  • Fue irónico ver juntas la cita de CNBC que dice que el salario de Satya Nadella subió 22% hasta 96.5 millones de dólares,
    y el comentario de un astronauta de Artemis II diciendo que “los dos Outlook no funcionan”

    • ¿“Dos Outlook”? Ya uno solo es demasiado
  • El contenido del texto parece exagerado, pero desde mi experiencia operando sistemas similares también recuerdo haber tenido que pelear constantemente para mantener la estabilidad
    He visto problemas parecidos en otras empresas, pero no con la gravedad que parece tener Azure
    Este tipo de estructura probablemente terminará en un bucle de autodestrucción

  • Probé Azure en 2018, y era lento, caro y de pésima calidad
    En los foros de GitHub, otros usuarios y yo tratábamos de resolver problemas donde ni siquiera funcionaban las características básicas
    Este texto me aclara muchas de las dudas que tenía en ese momento
    Personalmente, Google Cloud me pareció la plataforma mejor diseñada, aunque me decepciona que tenga menos soporte humano que AWS

    • El soporte de GCP es realmente malísimo
      Me cambiaron de representante tres veces en tres meses, y a veces ignoraban solicitudes de cuota o consultas sobre límites del sistema