8 puntos por GN⁺ 2026-03-07 | 2 comentarios | Compartir por WhatsApp
  • Claude Opus 4.6 descubrió 22 vulnerabilidades en Firefox mediante una colaboración con Mozilla, de las cuales 14 fueron clasificadas como de alto riesgo
  • Demostró que un modelo de IA puede detectar rápidamente vulnerabilidades de día cero en software complejo, y las correcciones se incorporaron en la versión Firefox 148.0
  • Claude analizó miles de archivos en áreas de código como el motor de JavaScript y envió 112 reportes, que Mozilla usó como base para aplicar correcciones
  • Se confirmó que la IA tiene una gran capacidad para detectar vulnerabilidades, pero una capacidad limitada para escribir exploits (código de ataque) reales
  • Anthropic propone un modelo de colaboración de investigación de seguridad basada en IA y llama a reforzar la seguridad con un enfoque centrado en los defensores mediante la colaboración con el ecosistema de código abierto

Resumen de la colaboración con Mozilla

  • Claude Opus 4.6 encontró 22 vulnerabilidades de Firefox tras dos semanas de análisis, y Mozilla clasificó 14 de ellas como de alto riesgo
    • Esto equivale a alrededor del 20% de las vulnerabilidades de alto riesgo corregidas en Firefox en 2025
    • Las correcciones se incluyeron en la versión Firefox 148.0 y se distribuyeron a cientos de millones de usuarios
  • Mozilla validó los reportes de Anthropic y compartió los criterios y procesos de los reportes de bugs, estableciendo un sistema de verificación colaborativa
  • Esta colaboración se presenta como un ejemplo de modelo de cooperación entre investigadores de seguridad basados en IA y mantenedores

Proceso de detección de vulnerabilidades con modelos de IA

  • Anthropic construyó un dataset de CVE de Firefox para realizar pruebas más realistas que el benchmark CyberGym
    • Firefox es un proyecto de código abierto complejo y con alta seguridad, por lo que resulta adecuado para verificar la capacidad de detección de la IA
  • Después de reproducir CVE anteriores, Claude se enfrentó al reto de detectar nuevas vulnerabilidades en la versión más reciente
    • En los primeros 20 minutos encontró una vulnerabilidad de memoria Use After Free, que fue reportada a Mozilla tras una verificación independiente
  • Después, Claude analizó más de 6,000 archivos C++ y envió 112 reportes únicos
    • La mayoría de los problemas fueron corregidos en Firefox 148, y algunos están previstos para resolverse en versiones futuras

Experimento de explotación de vulnerabilidades

  • Para evaluar el límite superior de las capacidades de seguridad de Claude, se realizó un experimento para ver si podía convertir las vulnerabilidades descubiertas en código de ataque real
    • Se invirtieron cientos de pruebas y alrededor de 4,000 dólares en costos de API
    • Como resultado, solo 2 exploits funcionaron realmente, por lo que su capacidad de generación de ataques fue baja en comparación con su capacidad de detección
  • Los exploits exitosos solo funcionaron en un entorno de prueba, con las funciones de seguridad de sandbox del navegador desactivadas
    • El sistema de defensa multicapa de Firefox puede mitigar este tipo de ataques
  • Anthropic advierte a partir de este experimento sobre la posibilidad de que la IA automatice la generación de herramientas de ataque

Mejores prácticas para la investigación de seguridad basada en IA

  • Anthropic desarrolló métodos para que los LLM realicen corrección y verificación de bugs mediante su investigación sobre un patching agent
    • Usa una herramienta auxiliar llamada Task verifier para validar en tiempo real los resultados de la IA
    • Se prueba automáticamente si la vulnerabilidad fue eliminada y si se mantiene la funcionalidad del programa
  • Los tres componentes clave de los reportes en los que Mozilla confió fueron los siguientes
    • Un caso de prueba mínimo para reproducir el problema
    • Un Proof-of-Concept detallado
    • Código de patch candidato
  • Recomiendan a los investigadores que, al enviar reportes de vulnerabilidades basados en LLM, incluyan también evidencia de verificabilidad y reproducibilidad

Perspectivas futuras y necesidad de reforzar la seguridad

  • Claude Opus 4.6 también encontró vulnerabilidades en proyectos clave como el kernel de Linux, además de Firefox
  • Actualmente, la IA tiene una ventaja en detección y corrección frente a su capacidad para generar exploits, lo que favorece a los defensores
  • Sin embargo, considerando la velocidad de avance de los modelos, existe la posibilidad de que esa brecha en capacidad ofensiva se reduzca rápidamente
  • Anthropic ya ofrece funciones de detección de vulnerabilidades y patching a investigadores y mantenedores mediante Claude Code Security
  • También insta a los desarrolladores a aprovechar esta ventana de oportunidad para reforzar la seguridad, y planea
    • colaborar en la búsqueda de vulnerabilidades
    • desarrollar herramientas para clasificar reportes de bugs
    • ampliar las funciones de sugerencia automática de parches

2 comentarios

 
mammal 2026-03-07

Mozilla Foundation Security Advisory 2026-13

Qué impresionante.

Parece un caso que nos vuelve a recordar lo importantes que son los casos de prueba estrictos.

 
GN⁺ 2026-03-07
Comentarios en Hacker News
  • Si te encargas de mantener la seguridad de un proyecto open source, recomiendan pedirle a Claude Code una auditoría de seguridad
    Puede ser difícil para proyectos enormes como Firefox, pero para la mayoría de los proyectos el costo en tokens ronda los 3 dólares
    Es muy probable que los atacantes ya estén haciendo este tipo de auditorías, así que no hacerlo uno mismo ya no parece una actitud responsable
    Al auditar el código base principal de Zulip, le pidieron al modelo que revisara por sí mismo cada resultado, y en ese proceso se eliminaron la mayoría de los falsos positivos (false positives)
    Después, los problemas que quedaban casi desaparecieron en una nueva auditoría al añadir comentarios en el código para dejar más clara la intención del modelo de seguridad

    • No recomendaría usar la IA de esta manera
      Pedirle “haz en segundos algo que tomaría una semana” no es realista
      El resultado puede verse convincente, pero no coincidir con la realidad
      Si tratas a la IA como a un intern, no te vas a decepcionar — ¿le encargarías a un intern una auditoría de seguridad de todo un programa enorme?
    • Me pregunto si existe algún texto largo que resuma las mejores prácticas para auditorías de seguridad con IA
      En algunos casos funciona muy bien, pero en otros no sirve para nada
      La diferencia parece depender al final de la calidad de la ingeniería de contexto y del test harness
      Este caso también fue interesante, pero habría sido bueno tener una explicación más concreta
  • Yo también publiqué recientemente un proyecto como open source, y un usuario de Reddit le pasó una auditoría de seguridad completa con Claude y encontró 15 vulnerabilidades
    Había inyección en FTS, inyección de comodines en LIKE, falta de autenticación en la API, omisiones de privacidad y varias cosas que yo había pasado por alto
    Lo sorprendente fue que el resultado era muy sistemático — incluía clasificación por severidad, rutas de archivo y números de línea, e incluso señalaba discrepancias entre la documentación y el código real
    En particular, el análisis de la “diferencia entre la especificación y la realidad” fue lo más útil
    El verdadero valor de una auditoría de seguridad con LLM no está en encontrar nuevos zero-days, sino en encargarse de revisiones repetitivas y minuciosas que a las personas les da flojera hacer

  • No mucha gente entiende la complejidad de las vulnerabilidades en navegadores como Firefox
    Solo convertir un simple UAF en shellcode de wasm ya puede tomar varios días
    La carrera por capacidades cibernéticas con IA todavía está tranquila, pero parece que eso cambiará antes de que termine el año
    Yo también, como Anthropic, le di a Claude una VM y un validador y le pedí generar exploits, y funcionó bastante bien en un entorno kctf-eval
    Aun así, sigue sin estar claro qué es lo que realmente “entiende” el modelo, o si solo imita ajustándose a la señal de recompensa

  • Es interesante que Mozilla haya actualizado su aviso de seguridad
    Tenía curiosidad por saber quién había encontrado 22 vulnerabilidades en una sola release, y por fin quedó claro

    • Se menciona repetidamente “Use After Free”, pero falta una explicación concreta de qué impacto real pueden tener estas vulnerabilidades
      Si solo permitieran soltar un archivo, no sería una gran amenaza, pero algo como el robo de datos de sesión sería mucho más interesante
    • Se ven muchos nombres conocidos
  • Es raro que no se mencione el contenido concreto de los bugs
    Me gustaría saber si eran simples edge cases o problemas realmente significativos
    Los LLM detectan bien patrones de fallo conocidos, pero eso no siempre significa que sean importantes

    • La nota original de Anthropic y el aviso de seguridad de Mozilla permiten revisar la lista de bugs
    • Algunos de los bugs descubiertos por Claude eran bastante graves
      No soy experto en seguridad, pero no parece algo que se pueda descartar solo diciendo “como lo encontró un LLM, no es gran cosa”
    • Hay un análisis detallado de uno de los bugs encontrados
    • Sin explicaciones concretas, parece un artículo de marketing
  • Mi experiencia usando agentes de IA ha sido mixta
    Han sido útiles para ampliar cobertura de pruebas, configurar fuzz testing y preparar herramientas de análisis estático
    Pero a veces afirman con seguridad que algo es “muy seguro” aunque en realidad no exista ningún límite de seguridad real
    Detectan bien bugs locales, pero casi no encuentran vulnerabilidades complejas que surgen de la interacción entre varias funciones
    Al final, las afirmaciones de seguridad del modelo siempre necesitan verificación

    • [Empleado de Mozilla] Estoy de acuerdo en que los LLM se equivocan mucho
      El valor de este método está en que aporta casos de prueba verificables
      Es mucho más eficiente que un simple reporte de análisis
      Antes era cierto eso de que “solo detecta bugs locales”, pero la situación cambió gracias al SDK agéntico
    • Si le encargas a la IA completar cobertura, se generan muchas pruebas sin sentido
      Si ya tienes una cobertura alta, lo que falta por cubrir suele ser, por naturaleza, la parte difícil
    • El análisis estático tradicional también se basaba en pattern matching, pero las herramientas modernas de análisis estático con IA dan resultados mucho mejores
      En especial, a veces incluso detectan vulnerabilidades de lógica de negocio
    • En realidad, estas limitaciones también son las mismas de los desarrolladores reales
      Los bugs locales saltan a la vista, pero unos límites de seguridad incompletos al principio suelen parecer suficientes
    • Las personas que usan el Claude para red team de Anthropic y los usuarios comunes no tienen el mismo nivel de acceso
  • Está claro por qué Anthropic eligió Firefox
    Porque es open source, está ampliamente distribuido y es un proyecto con validación de seguridad muy activa
    Chromium usa Gemini de Google, y Safari tiene una cultura de desarrollo cerrada que dificulta colaborar

    • Firefox es tan complejo como Chromium, pero es un proyecto con muchísimos menos recursos, así que encaja bien como objeto de experimento
    • Con Safari habría hecho falta un ataque de caja negra, así que un enfoque como este habría sido difícil
  • Según el artículo de Anthropic, el exploit escrito por Claude solo funcionó en un entorno de pruebas
    Eso fue porque la función de sandbox del navegador real estaba desactivada
    Por lo tanto, la defensa en profundidad (defense in depth) de Firefox probablemente habría mitigado este ataque

    • [Trabaja en Anthropic, ex Mozilla] Firefox considera que las vulnerabilidades dentro del sandbox también son problemas de seguridad independientes
      Chrome sigue una política similar
      La documentación relacionada puede verse en Security Severity Ratings
    • Aunque exista un sandbox, no sería apropiado ignorar una vulnerabilidad
      También puede haber escape del sandbox, así que todos los bugs deben corregirse
    • Incluso si el sandbox bloquea el ataque, sigue siendo importante corregir la vulnerabilidad
      Los atacantes pueden acumular estos zero-days parciales y luego combinarlos
      Esta corrección fue claramente una mejora de seguridad porque redujo ese riesgo
  • Yo también dejo agentes de IA escribiendo pruebas durante la noche, y alguna vez le pedí a Claude que intentara verificación formal (formal verification)
    Parece que Anthropic siguió un enfoque parecido
    En el futuro planeo añadir prompts para automatizar property testing y fuzz testing

    • Me pregunto si hay ejemplos reales de aplicar una verificación formal ligera
      Siento que los problemas con los que trabajo no requieren algo tan pesado, pero quizá esté equivocado
  • Algún día probablemente existirá un sistema automático de auditoría de seguridad para proyectos open source clave, como OSS-Fuzz de Google
    Anthropic ya ofrece acceso gratuito a Claude para maintainers de OSS
    Los LLM también han provocado que los programas de bug bounty se llenen de reportes falsos, pero los modelos más recientes ya están llegando a un nivel en el que distinguen vulnerabilidades reales
    Si evalúas con modelos gratuitos o baratos, es inevitable que la calidad se sienta baja
    En cambio, si operas un programa de auditoría de seguridad usando LLM avanzados, puedes garantizar la calidad
    Para salvar los bug bounty, quizá también serviría cobrar una cuota de participación o introducir validación basada en LLM

    • Google ya opera un proyecto de seguridad basado en IA llamado Big Sleep, y reporta vulnerabilidades en varios proyectos open source
      Enlace relacionado
    • Estaría bien tener un sistema que verifique automáticamente los reportes de bugs
      Por ejemplo, levantando una VM para que el agente ejecute una prueba de reproducción
    • Si no recuerdo mal, la oferta gratuita de Anthropic funciona con renovación automática cada 6 meses