Project Glasswing: colaboración global para proteger el software crítico en la era de la IA

(anthropic.com)

7 puntos por GN⁺ 23 일 전 | 2 comentarios | Compartir por WhatsApp

Project Glasswing, una iniciativa colaborativa en la que participan grandes empresas tecnológicas como Amazon, Apple, Google y Microsoft, usa IA para detectar y defender vulnerabilidades de seguridad en software crítico a nivel mundial
El modelo Claude Mythos 2 Preview de Anthropic cumple un papel central y ya ha encontrado miles de vulnerabilidades de alta gravedad en sistemas operativos y navegadores principales
Mythos Preview puede realizar detección autónoma y generación de exploits sin intervención humana, y encontró fallas latentes durante décadas en OpenBSD, FFmpeg y el kernel de Linux, entre otros
Anthropic aportará al proyecto créditos de modelo por un valor de 100 millones de dólares y 4 millones de dólares en donaciones a organizaciones de seguridad de código abierto, que los socios usarán para detección de vulnerabilidades, pruebas de seguridad y evaluación de penetración
Glasswing busca establecer estándares y guías de prácticas de ciberseguridad para la era de la IA, con la meta de construir a largo plazo un sistema de seguridad sostenible basado en colaboración público-privada

Resumen de Project Glasswing

Project Glasswing es un proyecto global de colaboración en ciberseguridad en el que participan Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks, entre otros
Su objetivo es usar IA, con base en el modelo Claude Mythos 2 Preview de Anthropic, para detectar y defender vulnerabilidades de seguridad en software crítico a nivel mundial
Mythos Preview encontró miles de vulnerabilidades de alta gravedad en sistemas operativos principales y navegadores web, con un nivel de desempeño que supera al de la mayoría de los expertos humanos
Para el proyecto, Anthropic ofrece créditos de uso del modelo por hasta 100 millones de dólares y 4 millones de dólares en donaciones a organizaciones de seguridad de código abierto
El proyecto se plantea como el inicio de una colaboración de largo plazo para definir estándares y guías prácticas de ciberseguridad en la era de la IA

El entorno de ciberseguridad en la era de la IA

El software de infraestructura crítica en finanzas, salud, energía, transporte y gobierno siempre contiene bugs y fallas de seguridad
Con el avance de los modelos de IA, el costo y el nivel de especialización necesarios para detectar y explotar vulnerabilidades se han reducido drásticamente
Claude Mythos Preview encontró fallas de seguridad antiguas que no habían sido detectadas durante décadas ni por revisión humana ni por pruebas automatizadas
Si estas capacidades de IA se usan de forma maliciosa, la frecuencia y el poder destructivo de los ciberataques podrían aumentar de forma significativa y convertirse en una amenaza para la seguridad nacional
Al mismo tiempo, la misma tecnología puede convertirse en una herramienta revolucionaria para la defensa, por lo que reforzar la seguridad con IA es esencial

Resultados de detección de vulnerabilidades de Claude Mythos Preview

En las últimas semanas, Mythos Preview encontró miles de vulnerabilidades zero-day en todos los principales sistemas operativos y navegadores web
El modelo detecta vulnerabilidades y desarrolla exploits de forma autónoma, sin intervención humana
Casos destacados
- OpenBSD: hallazgo de una vulnerabilidad presente durante 27 años, una falla que podía provocar la caída remota del sistema
- FFmpeg: hallazgo de una vulnerabilidad presente durante 16 años, un problema que no había sido detectado ni tras 5 millones de pruebas automatizadas
- Kernel de Linux: confirmación de la posibilidad de un ataque de escalamiento de privilegios al encadenar varias vulnerabilidades
Todas las vulnerabilidades fueron reportadas a los mantenedores correspondientes del proyecto y ya fueron parchadas
En el benchmark CyberGym, Mythos Preview obtuvo 83.1%, frente al 66.6% del modelo anterior Opus 4.6

Participación y evaluación de los socios

Cisco: subrayó que la IA ha cambiado de raíz la urgencia de proteger la infraestructura de seguridad y que ya no basta con los métodos tradicionales de endurecimiento de seguridad
AWS: analiza 400 billones de flujos de red al día y está usando Claude Mythos Preview para reforzar la seguridad a nivel de código
Microsoft: señaló que Mythos Preview mostró una mejora importante frente al modelo anterior en el benchmark CTI-REALM y está impulsando la expansión de seguridad basada en IA
CrowdStrike: destacó que, con la IA, el tiempo entre descubrir una vulnerabilidad y explotarla se ha reducido a minutos, y enfatizó la necesidad de desplegar rápidamente capacidades defensivas basadas en IA
Comunidad de código abierto: a través de Glasswing, también se ofrecerán herramientas de detección de vulnerabilidades con IA a mantenedores de código abierto con recursos limitados en sus equipos de seguridad
JPMorganChase: resaltó la importancia de una respuesta conjunta de la industria para fortalecer la resiliencia cibernética de los sistemas financieros
Google: ofrece Mythos Preview a través de Vertex AI y continúa desarrollando herramientas de seguridad basadas en IA (Big Sleep, CodeMender)

Rendimiento técnico de Claude Mythos Preview

Mythos Preview supera ampliamente a los modelos previos de Anthropic en capacidades de programación y razonamiento
Principales resultados en benchmarks
- Mejoras de más de 20% a 30% frente a Opus 4.6 en SWE-bench Verified/Pro/Multilingual y otros
- 92.1% en Terminal-Bench 2.0 (Opus 4.6 obtuvo 77.8%)
- Sin usar herramientas: 56.8% vs 40.0%; usando herramientas: 64.7% vs 53.1%
- En Humanity’s Last Exam: 86.9% vs 83.7%
- En BrowseComp registró una puntuación más alta usando 4.9 veces menos tokens
Anthropic indicó que no planea un despliegue público de Mythos Preview y que más adelante impulsará una expansión gradual mediante modelos Claude Opus con salvaguardas de seguridad reforzadas

Próximos planes de Project Glasswing

Los socios usarán Claude Mythos Preview para detección de vulnerabilidades en sistemas críticos, pruebas de caja negra sobre binarios, seguridad de endpoints y pruebas de penetración
Anthropic ofrecerá créditos de uso del modelo por un valor de 100 millones de dólares y posteriormente estará disponible a 25 dólares por millón de tokens de entrada y 125 dólares por millón de tokens de salida
Apoyo a organizaciones de seguridad de código abierto
- 2.5 millones de dólares para Alpha-Omega y OpenSSF, bajo la Linux Foundation
- 1.5 millones de dólares en donación a la Apache Software Foundation
- Los mantenedores de código abierto podrán acceder a través del programa Claude for Open Source
- En un plazo de 90 días se publicará un informe sobre corrección de vulnerabilidades y mejoras, y se desarrollarán en conjunto guías de prácticas de seguridad para la era de la IA
- Procedimientos de divulgación de vulnerabilidades
- Proceso de actualización de software
- Seguridad de código abierto y de la cadena de suministro
- Ciclo de vida de desarrollo centrado en seguridad
- Estándares regulatorios para industrias reguladas
- Sistemas automatizados de clasificación y parcheo de vulnerabilidades
- Anthropic está en conversaciones con el gobierno de Estados Unidos y prevé apoyar la evaluación y mitigación del impacto en seguridad nacional de las capacidades cibernéticas basadas en IA
- A largo plazo, el objetivo es una estructura en la que una tercera entidad independiente de colaboración público-privada gestione de forma continua proyectos de ciberseguridad a gran escala

2 comentarios

edwardyoon 22 일 전

Como miembro de una de las fundaciones mencionadas, al observar este proceso sentí un profundo escepticismo. De cara al público se promovía la idea de una "IA ética", pero internamente esta decisión se tomó de arriba hacia abajo sin ningún consenso de la comunidad.

A medida que se avivaban los conflictos geopolíticos, aunque llevaba mucho tiempo sin participar activamente, sentí que debía decir algo y abrí un hilo de discusión sobre ética, pero no hubo más que evasivas burocráticas. Esta iniciativa no protege los valores del código abierto; fue el caso de una alianza cerrada de grandes capitales que le compró a una fundación de código abierto la marca registrada Responsible AI.

GN⁺ 23 일 전

Comentarios de Hacker News

Cuando dicen que el hackeo patrocinado por Estados de países como China, Irán, Corea del Norte y Rusia amenaza la infraestructura, yo más bien pienso que PRISM fue el programa estatal que más impacto tuvo en la vida civil. Y sentí que faltaba un país en esa lista
- Yo agregaría dos países más. Uno es el país al que recientemente se le bloqueó el acceso a los modelos de Anthropic, y el otro es el país que estuvo ocupado con el incidente de los bípers explosivos
- No sorprende que una gran empresa estadounidense de IA no haya clasificado a Estados Unidos como un Estado hostil
- En la década de 2010, creo que la conectividad de red no era lo bastante densa como para causar daños reales dentro de EE. UU. Pero ahora el riesgo de guerra ha aumentado. En tiempos de paz es solo intimidación, pero en tiempos de guerra podría terminar en apagones
- Viendo la situación actual, esa afirmación suena irónica
- Me pregunto qué impacto real tuvo PRISM en la vida civil
Puede que el anuncio de Anthropic sea marketing exagerado, pero incluso si solo la mitad es cierta, la capacidad de detectar vulnerabilidades es impresionante. Si Apple o Google aplicaran esto a sus codebases del sistema operativo, la industria del spyware comercial podría colapsar. Yo pensaba que empresas como NSO Group ya habrían usado herramientas automatizadas de búsqueda de bugs, pero ahora quizá el equilibrio del juego empiece a emparejarse
- Si ves la charla en video del investigador de seguridad de Anthropic Nicholas Carlini, todas las demos se hicieron con Opus 4.6
- Apple ya casi ha detenido el hacking con memory tagging y el modo Lockdown. Las mejoras de arquitectura, los lenguajes seguros y el sandboxing son mucho más efectivos que simplemente corregir bugs
- Si esto es cierto, Anthropic estaría siguiendo una estrategia para bloquear por adelantado el riesgo de abuso. Parece una medida preventiva para evitar mala PR
- Si Apple cerrara todas las puertas traseras no intencionales, la tensión con el gobierno podría aumentar. En la carta a clientes de 2016, Apple rechazó los backdoors, pero la razón por la que el FBI finalmente desistió fue que encontró otra vía. Ahora puede que eso ya no funcione
Todavía no hay evidencia de que esta IA sea mejor que el fuzzing. Solo encontró bugs que el fuzzing no detectó. A la inversa, también podría pasar que la IA no encuentre cosas que el fuzzing sí encuentra
- Métodos distintos producen resultados distintos. Yo creo que lo ideal es usar lenguajes con seguridad de memoria junto con analizadores estáticos. Pero herramientas como Astrée son demasiado caras y por eso tienen poca cuota de mercado. Si los LLM ayudaran con pruebas basadas en lógica de Hoare, la situación podría cambiar
- Si ves las charlas de Carlini y de Heather Adkins de Google (video1, video2), el fuzzing es tanto el punto de partida de la IA como su complemento
- Los LLM entienden restricciones de protocolo como checksums o firmas, y complementan las partes donde el fuzzing tiene dificultades. Parece probable que pronto aparezca un fuzzer integrado
- De hecho, la IA también podría ejecutar y optimizar el fuzzing directamente
Leí la system card de Claude Mythos de Anthropic (PDF), y este modelo no se lanzará de forma general. Dicen que incluso con la validación interna sintieron el riesgo suficiente como para hacer una revisión de alineación de 24 horas. Lo interesante es que esta decisión no se debió a la Responsible Scaling Policy.
- Los benchmarks son impresionantes. Aunque no sea perfecto, sí se traduce en una mejora de rendimiento real
- Parece que surgirá un FOMO de que las empresas queden rezagadas en la competencia de seguridad si no colaboran con Anthropic
- Si de verdad es un modelo peligroso, 24 horas de revisión me parece demasiado poco
- En realidad, la falta de recursos de cómputo podría ser una razón más importante. Es posible que Mythos arrastre los mismos problemas de alineación de la era de GPT-4.1
- Disfruté leer el relato corto “Sign Painter” escrito por Mythos. Fue una historia que expresó bien la artesanía humana y la creatividad contenida
A largo plazo, no estoy seguro de que la seguridad del software vaya a converger hacia un mundo con menos vulnerabilidades. Las grandes empresas reforzarán su defensa con IA, pero los proyectos pequeños y medianos parecen encaminados al dilema de “o gastas muchos tokens o te hackean”
- Espero que se limpien las vulnerabilidades del código viejo y que este tipo de validación se vuelva parte del toolchain estándar. Aun así, los sistemas legacy son el mayor problema
- La mayoría de las vulnerabilidades provienen de C/C++ o de problemas de validación de entradas web. Al final hará falta migrar a lenguajes con seguridad de memoria
- Las organizaciones que se nieguen a usar IA probablemente se volverán objetivos de ataque concentrado para vulnerabilidades
- Al final, creo que esto va a converger hacia software simple con complejidad innecesaria reducida
- Pero el hecho de que Anthropic no haya resuelto primero las caídas o problemas de seguridad de sus propios modelos le quita credibilidad
Si ves la sección 7.6 de la system card de Mythos, en un experimento donde el modelo mantiene una conversación de 30 turnos consigo mismo, dicen que tiende a centrarse en la incertidumbre y la autorreflexión. Esa característica podría ser uno de los factores que elevan su capacidad de detección de vulnerabilidades
- Pero esta explicación suena a marketing exagerado de AGI por parte de Anthropic. Parece que quieren reforzar la narrativa de que el usuario general no puede confiar en ello
Mythos todavía parece un modelo cuya optimización y ajuste de guardrails no han terminado. Por eso solo permiten acceso a algunas empresas socias y lo están usando en una etapa de preview centrada en ciberseguridad. También parece buscar efecto de PR.
- Estaría bien que las empresas con este acceso pudieran crear datasets de programación para entrenar modelos abiertos, pero parece que Anthropic lo monitoreará estrictamente
Este anuncio parece un evento de PR exagerado. Opus 4.6 ya podía hacer detección de zero-days y encadenamiento de exploits. Vale la pena revisar el artículo relacionado de CSO Online y el blog de Xbow
La sociedad va a pagar el precio de que la industria del software haya descuidado la seguridad de memoria y la integridad del flujo de control
- Es un problema de la industria y el resultado de un fracaso regulatorio. Como decía Mario Wolczko, quien fue mi jefe en la época de Sun, nada cambiará hasta que exista responsabilidad legal. Ya es hora de retirar C/C++ y pasar a lenguajes como Rust
- Pero por las limitaciones humanas, es imposible hacer software complejo perfectamente seguro. Solo la simplicidad y las herramientas estrictas son la respuesta
- La mayoría de las vulnerabilidades de RCE provienen del secuestro del flujo de control. Mientras existan estructuras de salto dinámico, una defensa completa será difícil. Rust puede ayudar, pero construir programas grandes completamente solo con enlace estático no es realista
Yo creo que el nuevo modelo mejoró de forma drástica el rendimiento de manejo de contexto largo. En la prueba GraphWalks BFS 256K~1M, Mythos obtuvo 80%, muy por encima de Opus (38.7%) y GPT5.4 (21.4%)
- La fuente de los datos es la entrada “graphwalk” de la system card. El rendimiento en SWE Bench también parece haber mejorado bastante
- Aun así, esto podría deberse a un resultado con una ventana de atención muy grande como gpt-pro. En la práctica, quizá solo se puedan usar de forma real unos 8K tokens