Colaboración Anthropic–Mozilla para reforzar la seguridad de Firefox

(anthropic.com)

8 puntos por GN⁺ 2026-03-07 | 2 comentarios | Compartir por WhatsApp

Claude Opus 4.6 descubrió 22 vulnerabilidades en Firefox mediante una colaboración con Mozilla, de las cuales 14 fueron clasificadas como de alto riesgo
Demostró que un modelo de IA puede detectar rápidamente vulnerabilidades de día cero en software complejo, y las correcciones se incorporaron en la versión Firefox 148.0
Claude analizó miles de archivos en áreas de código como el motor de JavaScript y envió 112 reportes, que Mozilla usó como base para aplicar correcciones
Se confirmó que la IA tiene una gran capacidad para detectar vulnerabilidades, pero una capacidad limitada para escribir exploits (código de ataque) reales
Anthropic propone un modelo de colaboración de investigación de seguridad basada en IA y llama a reforzar la seguridad con un enfoque centrado en los defensores mediante la colaboración con el ecosistema de código abierto

Resumen de la colaboración con Mozilla

Claude Opus 4.6 encontró 22 vulnerabilidades de Firefox tras dos semanas de análisis, y Mozilla clasificó 14 de ellas como de alto riesgo
- Esto equivale a alrededor del 20% de las vulnerabilidades de alto riesgo corregidas en Firefox en 2025
- Las correcciones se incluyeron en la versión Firefox 148.0 y se distribuyeron a cientos de millones de usuarios
Mozilla validó los reportes de Anthropic y compartió los criterios y procesos de los reportes de bugs, estableciendo un sistema de verificación colaborativa
Esta colaboración se presenta como un ejemplo de modelo de cooperación entre investigadores de seguridad basados en IA y mantenedores

Proceso de detección de vulnerabilidades con modelos de IA

Anthropic construyó un dataset de CVE de Firefox para realizar pruebas más realistas que el benchmark CyberGym
- Firefox es un proyecto de código abierto complejo y con alta seguridad, por lo que resulta adecuado para verificar la capacidad de detección de la IA
Después de reproducir CVE anteriores, Claude se enfrentó al reto de detectar nuevas vulnerabilidades en la versión más reciente
- En los primeros 20 minutos encontró una vulnerabilidad de memoria Use After Free, que fue reportada a Mozilla tras una verificación independiente
Después, Claude analizó más de 6,000 archivos C++ y envió 112 reportes únicos
- La mayoría de los problemas fueron corregidos en Firefox 148, y algunos están previstos para resolverse en versiones futuras

Experimento de explotación de vulnerabilidades

Para evaluar el límite superior de las capacidades de seguridad de Claude, se realizó un experimento para ver si podía convertir las vulnerabilidades descubiertas en código de ataque real
- Se invirtieron cientos de pruebas y alrededor de 4,000 dólares en costos de API
- Como resultado, solo 2 exploits funcionaron realmente, por lo que su capacidad de generación de ataques fue baja en comparación con su capacidad de detección
Los exploits exitosos solo funcionaron en un entorno de prueba, con las funciones de seguridad de sandbox del navegador desactivadas
- El sistema de defensa multicapa de Firefox puede mitigar este tipo de ataques
Anthropic advierte a partir de este experimento sobre la posibilidad de que la IA automatice la generación de herramientas de ataque

Mejores prácticas para la investigación de seguridad basada en IA

Anthropic desarrolló métodos para que los LLM realicen corrección y verificación de bugs mediante su investigación sobre un patching agent
- Usa una herramienta auxiliar llamada Task verifier para validar en tiempo real los resultados de la IA
- Se prueba automáticamente si la vulnerabilidad fue eliminada y si se mantiene la funcionalidad del programa
Los tres componentes clave de los reportes en los que Mozilla confió fueron los siguientes
- Un caso de prueba mínimo para reproducir el problema
- Un Proof-of-Concept detallado
- Código de patch candidato
Recomiendan a los investigadores que, al enviar reportes de vulnerabilidades basados en LLM, incluyan también evidencia de verificabilidad y reproducibilidad

Perspectivas futuras y necesidad de reforzar la seguridad

Claude Opus 4.6 también encontró vulnerabilidades en proyectos clave como el kernel de Linux, además de Firefox
Actualmente, la IA tiene una ventaja en detección y corrección frente a su capacidad para generar exploits, lo que favorece a los defensores
Sin embargo, considerando la velocidad de avance de los modelos, existe la posibilidad de que esa brecha en capacidad ofensiva se reduzca rápidamente
Anthropic ya ofrece funciones de detección de vulnerabilidades y patching a investigadores y mantenedores mediante Claude Code Security
También insta a los desarrolladores a aprovechar esta ventana de oportunidad para reforzar la seguridad, y planea
- colaborar en la búsqueda de vulnerabilidades
- desarrollar herramientas para clasificar reportes de bugs
- ampliar las funciones de sugerencia automática de parches

2 comentarios

mammal 2026-03-07

Mozilla Foundation Security Advisory 2026-13

Qué impresionante.

Parece un caso que nos vuelve a recordar lo importantes que son los casos de prueba estrictos.

GN⁺ 2026-03-07

Comentarios en Hacker News

Si te encargas de mantener la seguridad de un proyecto open source, recomiendan pedirle a Claude Code una auditoría de seguridad
Puede ser difícil para proyectos enormes como Firefox, pero para la mayoría de los proyectos el costo en tokens ronda los 3 dólares
Es muy probable que los atacantes ya estén haciendo este tipo de auditorías, así que no hacerlo uno mismo ya no parece una actitud responsable
Al auditar el código base principal de Zulip, le pidieron al modelo que revisara por sí mismo cada resultado, y en ese proceso se eliminaron la mayoría de los falsos positivos (false positives)
Después, los problemas que quedaban casi desaparecieron en una nueva auditoría al añadir comentarios en el código para dejar más clara la intención del modelo de seguridad
- No recomendaría usar la IA de esta manera
  Pedirle “haz en segundos algo que tomaría una semana” no es realista
  El resultado puede verse convincente, pero no coincidir con la realidad
  Si tratas a la IA como a un intern, no te vas a decepcionar — ¿le encargarías a un intern una auditoría de seguridad de todo un programa enorme?
- Me pregunto si existe algún texto largo que resuma las mejores prácticas para auditorías de seguridad con IA
  En algunos casos funciona muy bien, pero en otros no sirve para nada
  La diferencia parece depender al final de la calidad de la ingeniería de contexto y del test harness
  Este caso también fue interesante, pero habría sido bueno tener una explicación más concreta
Yo también publiqué recientemente un proyecto como open source, y un usuario de Reddit le pasó una auditoría de seguridad completa con Claude y encontró 15 vulnerabilidades
Había inyección en FTS, inyección de comodines en LIKE, falta de autenticación en la API, omisiones de privacidad y varias cosas que yo había pasado por alto
Lo sorprendente fue que el resultado era muy sistemático — incluía clasificación por severidad, rutas de archivo y números de línea, e incluso señalaba discrepancias entre la documentación y el código real
En particular, el análisis de la “diferencia entre la especificación y la realidad” fue lo más útil
El verdadero valor de una auditoría de seguridad con LLM no está en encontrar nuevos zero-days, sino en encargarse de revisiones repetitivas y minuciosas que a las personas les da flojera hacer
No mucha gente entiende la complejidad de las vulnerabilidades en navegadores como Firefox
Solo convertir un simple UAF en shellcode de wasm ya puede tomar varios días
La carrera por capacidades cibernéticas con IA todavía está tranquila, pero parece que eso cambiará antes de que termine el año
Yo también, como Anthropic, le di a Claude una VM y un validador y le pedí generar exploits, y funcionó bastante bien en un entorno kctf-eval
Aun así, sigue sin estar claro qué es lo que realmente “entiende” el modelo, o si solo imita ajustándose a la señal de recompensa
Es interesante que Mozilla haya actualizado su aviso de seguridad
Tenía curiosidad por saber quién había encontrado 22 vulnerabilidades en una sola release, y por fin quedó claro
- Se menciona repetidamente “Use After Free”, pero falta una explicación concreta de qué impacto real pueden tener estas vulnerabilidades
  Si solo permitieran soltar un archivo, no sería una gran amenaza, pero algo como el robo de datos de sesión sería mucho más interesante
- Se ven muchos nombres conocidos
Es raro que no se mencione el contenido concreto de los bugs
Me gustaría saber si eran simples edge cases o problemas realmente significativos
Los LLM detectan bien patrones de fallo conocidos, pero eso no siempre significa que sean importantes
- La nota original de Anthropic y el aviso de seguridad de Mozilla permiten revisar la lista de bugs
- Algunos de los bugs descubiertos por Claude eran bastante graves
  No soy experto en seguridad, pero no parece algo que se pueda descartar solo diciendo “como lo encontró un LLM, no es gran cosa”
- Hay un análisis detallado de uno de los bugs encontrados
- Sin explicaciones concretas, parece un artículo de marketing
Mi experiencia usando agentes de IA ha sido mixta
Han sido útiles para ampliar cobertura de pruebas, configurar fuzz testing y preparar herramientas de análisis estático
Pero a veces afirman con seguridad que algo es “muy seguro” aunque en realidad no exista ningún límite de seguridad real
Detectan bien bugs locales, pero casi no encuentran vulnerabilidades complejas que surgen de la interacción entre varias funciones
Al final, las afirmaciones de seguridad del modelo siempre necesitan verificación
- [Empleado de Mozilla] Estoy de acuerdo en que los LLM se equivocan mucho
  El valor de este método está en que aporta casos de prueba verificables
  Es mucho más eficiente que un simple reporte de análisis
  Antes era cierto eso de que “solo detecta bugs locales”, pero la situación cambió gracias al SDK agéntico
- Si le encargas a la IA completar cobertura, se generan muchas pruebas sin sentido
  Si ya tienes una cobertura alta, lo que falta por cubrir suele ser, por naturaleza, la parte difícil
- El análisis estático tradicional también se basaba en pattern matching, pero las herramientas modernas de análisis estático con IA dan resultados mucho mejores
  En especial, a veces incluso detectan vulnerabilidades de lógica de negocio
- En realidad, estas limitaciones también son las mismas de los desarrolladores reales
  Los bugs locales saltan a la vista, pero unos límites de seguridad incompletos al principio suelen parecer suficientes
- Las personas que usan el Claude para red team de Anthropic y los usuarios comunes no tienen el mismo nivel de acceso
Está claro por qué Anthropic eligió Firefox
Porque es open source, está ampliamente distribuido y es un proyecto con validación de seguridad muy activa
Chromium usa Gemini de Google, y Safari tiene una cultura de desarrollo cerrada que dificulta colaborar
- Firefox es tan complejo como Chromium, pero es un proyecto con muchísimos menos recursos, así que encaja bien como objeto de experimento
- Con Safari habría hecho falta un ataque de caja negra, así que un enfoque como este habría sido difícil
Según el artículo de Anthropic, el exploit escrito por Claude solo funcionó en un entorno de pruebas
Eso fue porque la función de sandbox del navegador real estaba desactivada
Por lo tanto, la defensa en profundidad (defense in depth) de Firefox probablemente habría mitigado este ataque
- [Trabaja en Anthropic, ex Mozilla] Firefox considera que las vulnerabilidades dentro del sandbox también son problemas de seguridad independientes
  Chrome sigue una política similar
  La documentación relacionada puede verse en Security Severity Ratings
- Aunque exista un sandbox, no sería apropiado ignorar una vulnerabilidad
  También puede haber escape del sandbox, así que todos los bugs deben corregirse
- Incluso si el sandbox bloquea el ataque, sigue siendo importante corregir la vulnerabilidad
  Los atacantes pueden acumular estos zero-days parciales y luego combinarlos
  Esta corrección fue claramente una mejora de seguridad porque redujo ese riesgo
Yo también dejo agentes de IA escribiendo pruebas durante la noche, y alguna vez le pedí a Claude que intentara verificación formal (formal verification)
Parece que Anthropic siguió un enfoque parecido
En el futuro planeo añadir prompts para automatizar property testing y fuzz testing
- Me pregunto si hay ejemplos reales de aplicar una verificación formal ligera
  Siento que los problemas con los que trabajo no requieren algo tan pesado, pero quizá esté equivocado
Algún día probablemente existirá un sistema automático de auditoría de seguridad para proyectos open source clave, como OSS-Fuzz de Google
Anthropic ya ofrece acceso gratuito a Claude para maintainers de OSS
Los LLM también han provocado que los programas de bug bounty se llenen de reportes falsos, pero los modelos más recientes ya están llegando a un nivel en el que distinguen vulnerabilidades reales
Si evalúas con modelos gratuitos o baratos, es inevitable que la calidad se sienta baja
En cambio, si operas un programa de auditoría de seguridad usando LLM avanzados, puedes garantizar la calidad
Para salvar los bug bounty, quizá también serviría cobrar una cuota de participación o introducir validación basada en LLM
- Google ya opera un proyecto de seguridad basado en IA llamado Big Sleep, y reporta vulnerabilidades en varios proyectos open source
  Enlace relacionado
- Estaría bien tener un sistema que verifique automáticamente los reportes de bugs
  Por ejemplo, levantando una VM para que el agente ejecute una prueba de reproducción
- Si no recuerdo mal, la oferta gratuita de Anthropic funciona con renovación automática cada 6 meses