Si este sistema estaba en una ruta crítica, no debió haber pasado por el pipeline de C/I
No soy estricto con las pruebas automatizadas, pero un sistema con este nivel de criticidad necesita una gestión de estado muy buena
No se debería hacer rollout a producción sin pruebas de integración en todos los entornos
No entiendo cómo no tienen servidores de pruebas de staging o desarrollo para probar todas las imágenes objetivo que soporta esta empresa
Creo que la dirección de esta empresa es incompetente
Los dos grandes colapsos técnicos fueron problemas de "software de seguridad"
Tanto el hackeo de SolarWinds como este incidente fueron de empresas con base en Austin
Personas del tipo "hacker" inician empresas de software de seguridad, pero odian implementar una cultura orientada a procesos
SolarWinds tenía una cultura de seguridad muy mala
Es muy probable que la causa raíz de este incidente también sea un proceso de despliegue rápido y descuidado
El lado positivo de este desastre es la posibilidad de replantear el acceso a nivel de kernel
Una empresa de videojuegos cualquiera no es lo suficientemente buena como para escribir software antitrampas a nivel de kernel
Parece el segundo o tercer archivo de prueba que alguien de QA intentaría
Es un mercado en el que una empresa técnicamente competente no logra imponerse sobre una incompetente
Leí sobre el caso de Craig Wright, y ni siquiera tenía capacidades técnicas básicas en el campo en el que afirmaba ser un experto de clase mundial
George Kurtz causó el mismo problema cuando era CTO de McAfee
CrowdStrike causó el mismo problema en Debian Stable hace 3 meses
Es terrible que los requisitos de cumplimiento de PCI hayan inyectado a CrowdStrike y al antivirus en casi todos los aspectos de la infraestructura de TI actual
Que este archivo estuviera lleno de ceros no significa que también estuviera lleno de ceros cuando se envió
Este bug existía en el driver del kernel desde hace años y se activó por datos incorrectos
La configuración de pruebas de CrowdStrike estaba bien respecto a estos datos de configuración en sí, pero no logró detectarlo antes de enviarlo a producción
Espero que publiquen un informe postmortem que explique qué van a hacer para evitar este problema
Según Kevin Beaumont, se afirma que el archivo es distinto para cada cliente
Es posible que estos archivos no sean el contenido original del archivo
Es posible que alguien haya intentado sobrescribir el archivo incorrecto con un archivo completamente en cero
Podría haber sido un intento de detener el despliegue real del parche porque se había saltado QA
En el pasado hubo casos en los que software de seguridad reemplazó archivos con ceros y detuvo la compilación de software
El linker no podía abrir el archivo y reemplazó el código objeto con ceros sin mostrar errores
Abrí el depurador, vi que grandes fragmentos del código objeto habían sido reemplazados por ceros y así entendí el problema
Publicación encontrada en el tablón de tecnología de 4chan
CSAgent.sys es un driver de kernel que parsea los archivos de definiciones de virus de CrowdStrike
CrowdStrike no pudo manejar un archivo incorrecto de definiciones de virus
El servidor web empezó a servir un archivo incorrecto de definiciones de virus
CSAgent.sys cargó el archivo incorrecto de definiciones de virus y falló
La computadora se reinició con BSOD (pantalla azul)
CSAgent.sys volvió a cargar el archivo incorrecto de definiciones de virus y falló
Un bug en el CDN hizo que el driver del kernel causara el problema
Aumentar la verificación de tamaño y el tamaño del búfer de CSAgent.sys para que futuros archivos incorrectos de definiciones de virus no provoquen fallos
1 comentarios
Opiniones en Hacker News
Si este sistema estaba en una ruta crítica, no debió haber pasado por el pipeline de C/I
Los dos grandes colapsos técnicos fueron problemas de "software de seguridad"
El lado positivo de este desastre es la posibilidad de replantear el acceso a nivel de kernel
Parece el segundo o tercer archivo de prueba que alguien de QA intentaría
Que este archivo estuviera lleno de ceros no significa que también estuviera lleno de ceros cuando se envió
Este bug existía en el driver del kernel desde hace años y se activó por datos incorrectos
Según Kevin Beaumont, se afirma que el archivo es distinto para cada cliente
Es posible que estos archivos no sean el contenido original del archivo
En el pasado hubo casos en los que software de seguridad reemplazó archivos con ceros y detuvo la compilación de software
Publicación encontrada en el tablón de tecnología de 4chan