1 comentarios

 
GN⁺ 2024-07-21
Opiniones en Hacker News
  • Si este sistema estaba en una ruta crítica, no debió haber pasado por el pipeline de C/I

    • No soy estricto con las pruebas automatizadas, pero un sistema con este nivel de criticidad necesita una gestión de estado muy buena
    • No se debería hacer rollout a producción sin pruebas de integración en todos los entornos
    • No entiendo cómo no tienen servidores de pruebas de staging o desarrollo para probar todas las imágenes objetivo que soporta esta empresa
    • Creo que la dirección de esta empresa es incompetente
  • Los dos grandes colapsos técnicos fueron problemas de "software de seguridad"

    • Tanto el hackeo de SolarWinds como este incidente fueron de empresas con base en Austin
    • Personas del tipo "hacker" inician empresas de software de seguridad, pero odian implementar una cultura orientada a procesos
    • SolarWinds tenía una cultura de seguridad muy mala
    • Es muy probable que la causa raíz de este incidente también sea un proceso de despliegue rápido y descuidado
  • El lado positivo de este desastre es la posibilidad de replantear el acceso a nivel de kernel

    • Una empresa de videojuegos cualquiera no es lo suficientemente buena como para escribir software antitrampas a nivel de kernel
  • Parece el segundo o tercer archivo de prueba que alguien de QA intentaría

    • Es un mercado en el que una empresa técnicamente competente no logra imponerse sobre una incompetente
    • Leí sobre el caso de Craig Wright, y ni siquiera tenía capacidades técnicas básicas en el campo en el que afirmaba ser un experto de clase mundial
    • George Kurtz causó el mismo problema cuando era CTO de McAfee
    • CrowdStrike causó el mismo problema en Debian Stable hace 3 meses
    • Es terrible que los requisitos de cumplimiento de PCI hayan inyectado a CrowdStrike y al antivirus en casi todos los aspectos de la infraestructura de TI actual
  • Que este archivo estuviera lleno de ceros no significa que también estuviera lleno de ceros cuando se envió

  • Este bug existía en el driver del kernel desde hace años y se activó por datos incorrectos

    • La configuración de pruebas de CrowdStrike estaba bien respecto a estos datos de configuración en sí, pero no logró detectarlo antes de enviarlo a producción
    • Espero que publiquen un informe postmortem que explique qué van a hacer para evitar este problema
  • Según Kevin Beaumont, se afirma que el archivo es distinto para cada cliente

  • Es posible que estos archivos no sean el contenido original del archivo

    • Es posible que alguien haya intentado sobrescribir el archivo incorrecto con un archivo completamente en cero
    • Podría haber sido un intento de detener el despliegue real del parche porque se había saltado QA
  • En el pasado hubo casos en los que software de seguridad reemplazó archivos con ceros y detuvo la compilación de software

    • El linker no podía abrir el archivo y reemplazó el código objeto con ceros sin mostrar errores
    • Abrí el depurador, vi que grandes fragmentos del código objeto habían sido reemplazados por ceros y así entendí el problema
  • Publicación encontrada en el tablón de tecnología de 4chan

    • CSAgent.sys es un driver de kernel que parsea los archivos de definiciones de virus de CrowdStrike
    • CrowdStrike no pudo manejar un archivo incorrecto de definiciones de virus
    • El servidor web empezó a servir un archivo incorrecto de definiciones de virus
    • CSAgent.sys cargó el archivo incorrecto de definiciones de virus y falló
    • La computadora se reinició con BSOD (pantalla azul)
    • CSAgent.sys volvió a cargar el archivo incorrecto de definiciones de virus y falló
    • Un bug en el CDN hizo que el driver del kernel causara el problema
    • Aumentar la verificación de tamaño y el tamaño del búfer de CSAgent.sys para que futuros archivos incorrectos de definiciones de virus no provoquen fallos