- Claude Opus 4.6 descubrió 22 vulnerabilidades en Firefox mediante una colaboración con Mozilla, de las cuales 14 fueron clasificadas como de alto riesgo
- Demostró que un modelo de IA puede detectar rápidamente vulnerabilidades de día cero en software complejo, y las correcciones se incorporaron en la versión Firefox 148.0
- Claude analizó miles de archivos en áreas de código como el motor de JavaScript y envió 112 reportes, que Mozilla usó como base para aplicar correcciones
- Se confirmó que la IA tiene una gran capacidad para detectar vulnerabilidades, pero una capacidad limitada para escribir exploits (código de ataque) reales
- Anthropic propone un modelo de colaboración de investigación de seguridad basada en IA y llama a reforzar la seguridad con un enfoque centrado en los defensores mediante la colaboración con el ecosistema de código abierto
Resumen de la colaboración con Mozilla
- Claude Opus 4.6 encontró 22 vulnerabilidades de Firefox tras dos semanas de análisis, y Mozilla clasificó 14 de ellas como de alto riesgo
- Esto equivale a alrededor del 20% de las vulnerabilidades de alto riesgo corregidas en Firefox en 2025
- Las correcciones se incluyeron en la versión Firefox 148.0 y se distribuyeron a cientos de millones de usuarios
- Mozilla validó los reportes de Anthropic y compartió los criterios y procesos de los reportes de bugs, estableciendo un sistema de verificación colaborativa
- Esta colaboración se presenta como un ejemplo de modelo de cooperación entre investigadores de seguridad basados en IA y mantenedores
Proceso de detección de vulnerabilidades con modelos de IA
- Anthropic construyó un dataset de CVE de Firefox para realizar pruebas más realistas que el benchmark CyberGym
- Firefox es un proyecto de código abierto complejo y con alta seguridad, por lo que resulta adecuado para verificar la capacidad de detección de la IA
- Después de reproducir CVE anteriores, Claude se enfrentó al reto de detectar nuevas vulnerabilidades en la versión más reciente
- En los primeros 20 minutos encontró una vulnerabilidad de memoria Use After Free, que fue reportada a Mozilla tras una verificación independiente
- Después, Claude analizó más de 6,000 archivos C++ y envió 112 reportes únicos
- La mayoría de los problemas fueron corregidos en Firefox 148, y algunos están previstos para resolverse en versiones futuras
Experimento de explotación de vulnerabilidades
- Para evaluar el límite superior de las capacidades de seguridad de Claude, se realizó un experimento para ver si podía convertir las vulnerabilidades descubiertas en código de ataque real
- Se invirtieron cientos de pruebas y alrededor de 4,000 dólares en costos de API
- Como resultado, solo 2 exploits funcionaron realmente, por lo que su capacidad de generación de ataques fue baja en comparación con su capacidad de detección
- Los exploits exitosos solo funcionaron en un entorno de prueba, con las funciones de seguridad de sandbox del navegador desactivadas
- El sistema de defensa multicapa de Firefox puede mitigar este tipo de ataques
- Anthropic advierte a partir de este experimento sobre la posibilidad de que la IA automatice la generación de herramientas de ataque
Mejores prácticas para la investigación de seguridad basada en IA
- Anthropic desarrolló métodos para que los LLM realicen corrección y verificación de bugs mediante su investigación sobre un patching agent
- Usa una herramienta auxiliar llamada Task verifier para validar en tiempo real los resultados de la IA
- Se prueba automáticamente si la vulnerabilidad fue eliminada y si se mantiene la funcionalidad del programa
- Los tres componentes clave de los reportes en los que Mozilla confió fueron los siguientes
- Un caso de prueba mínimo para reproducir el problema
- Un Proof-of-Concept detallado
- Código de patch candidato
- Recomiendan a los investigadores que, al enviar reportes de vulnerabilidades basados en LLM, incluyan también evidencia de verificabilidad y reproducibilidad
Perspectivas futuras y necesidad de reforzar la seguridad
- Claude Opus 4.6 también encontró vulnerabilidades en proyectos clave como el kernel de Linux, además de Firefox
- Actualmente, la IA tiene una ventaja en detección y corrección frente a su capacidad para generar exploits, lo que favorece a los defensores
- Sin embargo, considerando la velocidad de avance de los modelos, existe la posibilidad de que esa brecha en capacidad ofensiva se reduzca rápidamente
- Anthropic ya ofrece funciones de detección de vulnerabilidades y patching a investigadores y mantenedores mediante Claude Code Security
- También insta a los desarrolladores a aprovechar esta ventana de oportunidad para reforzar la seguridad, y planea
- colaborar en la búsqueda de vulnerabilidades
- desarrollar herramientas para clasificar reportes de bugs
- ampliar las funciones de sugerencia automática de parches
2 comentarios
Mozilla Foundation Security Advisory 2026-13
Qué impresionante.
Parece un caso que nos vuelve a recordar lo importantes que son los casos de prueba estrictos.
Comentarios en Hacker News
Si te encargas de mantener la seguridad de un proyecto open source, recomiendan pedirle a Claude Code una auditoría de seguridad
Puede ser difícil para proyectos enormes como Firefox, pero para la mayoría de los proyectos el costo en tokens ronda los 3 dólares
Es muy probable que los atacantes ya estén haciendo este tipo de auditorías, así que no hacerlo uno mismo ya no parece una actitud responsable
Al auditar el código base principal de Zulip, le pidieron al modelo que revisara por sí mismo cada resultado, y en ese proceso se eliminaron la mayoría de los falsos positivos (false positives)
Después, los problemas que quedaban casi desaparecieron en una nueva auditoría al añadir comentarios en el código para dejar más clara la intención del modelo de seguridad
Pedirle “haz en segundos algo que tomaría una semana” no es realista
El resultado puede verse convincente, pero no coincidir con la realidad
Si tratas a la IA como a un intern, no te vas a decepcionar — ¿le encargarías a un intern una auditoría de seguridad de todo un programa enorme?
En algunos casos funciona muy bien, pero en otros no sirve para nada
La diferencia parece depender al final de la calidad de la ingeniería de contexto y del test harness
Este caso también fue interesante, pero habría sido bueno tener una explicación más concreta
Yo también publiqué recientemente un proyecto como open source, y un usuario de Reddit le pasó una auditoría de seguridad completa con Claude y encontró 15 vulnerabilidades
Había inyección en FTS, inyección de comodines en LIKE, falta de autenticación en la API, omisiones de privacidad y varias cosas que yo había pasado por alto
Lo sorprendente fue que el resultado era muy sistemático — incluía clasificación por severidad, rutas de archivo y números de línea, e incluso señalaba discrepancias entre la documentación y el código real
En particular, el análisis de la “diferencia entre la especificación y la realidad” fue lo más útil
El verdadero valor de una auditoría de seguridad con LLM no está en encontrar nuevos zero-days, sino en encargarse de revisiones repetitivas y minuciosas que a las personas les da flojera hacer
No mucha gente entiende la complejidad de las vulnerabilidades en navegadores como Firefox
Solo convertir un simple UAF en shellcode de wasm ya puede tomar varios días
La carrera por capacidades cibernéticas con IA todavía está tranquila, pero parece que eso cambiará antes de que termine el año
Yo también, como Anthropic, le di a Claude una VM y un validador y le pedí generar exploits, y funcionó bastante bien en un entorno kctf-eval
Aun así, sigue sin estar claro qué es lo que realmente “entiende” el modelo, o si solo imita ajustándose a la señal de recompensa
Es interesante que Mozilla haya actualizado su aviso de seguridad
Tenía curiosidad por saber quién había encontrado 22 vulnerabilidades en una sola release, y por fin quedó claro
Si solo permitieran soltar un archivo, no sería una gran amenaza, pero algo como el robo de datos de sesión sería mucho más interesante
Es raro que no se mencione el contenido concreto de los bugs
Me gustaría saber si eran simples edge cases o problemas realmente significativos
Los LLM detectan bien patrones de fallo conocidos, pero eso no siempre significa que sean importantes
No soy experto en seguridad, pero no parece algo que se pueda descartar solo diciendo “como lo encontró un LLM, no es gran cosa”
Mi experiencia usando agentes de IA ha sido mixta
Han sido útiles para ampliar cobertura de pruebas, configurar fuzz testing y preparar herramientas de análisis estático
Pero a veces afirman con seguridad que algo es “muy seguro” aunque en realidad no exista ningún límite de seguridad real
Detectan bien bugs locales, pero casi no encuentran vulnerabilidades complejas que surgen de la interacción entre varias funciones
Al final, las afirmaciones de seguridad del modelo siempre necesitan verificación
El valor de este método está en que aporta casos de prueba verificables
Es mucho más eficiente que un simple reporte de análisis
Antes era cierto eso de que “solo detecta bugs locales”, pero la situación cambió gracias al SDK agéntico
Si ya tienes una cobertura alta, lo que falta por cubrir suele ser, por naturaleza, la parte difícil
En especial, a veces incluso detectan vulnerabilidades de lógica de negocio
Los bugs locales saltan a la vista, pero unos límites de seguridad incompletos al principio suelen parecer suficientes
Está claro por qué Anthropic eligió Firefox
Porque es open source, está ampliamente distribuido y es un proyecto con validación de seguridad muy activa
Chromium usa Gemini de Google, y Safari tiene una cultura de desarrollo cerrada que dificulta colaborar
Según el artículo de Anthropic, el exploit escrito por Claude solo funcionó en un entorno de pruebas
Eso fue porque la función de sandbox del navegador real estaba desactivada
Por lo tanto, la defensa en profundidad (defense in depth) de Firefox probablemente habría mitigado este ataque
Chrome sigue una política similar
La documentación relacionada puede verse en Security Severity Ratings
También puede haber escape del sandbox, así que todos los bugs deben corregirse
Los atacantes pueden acumular estos zero-days parciales y luego combinarlos
Esta corrección fue claramente una mejora de seguridad porque redujo ese riesgo
Yo también dejo agentes de IA escribiendo pruebas durante la noche, y alguna vez le pedí a Claude que intentara verificación formal (formal verification)
Parece que Anthropic siguió un enfoque parecido
En el futuro planeo añadir prompts para automatizar property testing y fuzz testing
Siento que los problemas con los que trabajo no requieren algo tan pesado, pero quizá esté equivocado
Algún día probablemente existirá un sistema automático de auditoría de seguridad para proyectos open source clave, como OSS-Fuzz de Google
Anthropic ya ofrece acceso gratuito a Claude para maintainers de OSS
Los LLM también han provocado que los programas de bug bounty se llenen de reportes falsos, pero los modelos más recientes ya están llegando a un nivel en el que distinguen vulnerabilidades reales
Si evalúas con modelos gratuitos o baratos, es inevitable que la calidad se sienta baja
En cambio, si operas un programa de auditoría de seguridad usando LLM avanzados, puedes garantizar la calidad
Para salvar los bug bounty, quizá también serviría cobrar una cuota de participación o introducir validación basada en LLM
Enlace relacionado
Por ejemplo, levantando una VM para que el agente ejecute una prueba de reproducción