El potentísimo AI de seguridad de Anthropic, "Claude Mythos", se distribuye de forma limitada solo a socios seleccionados en vez de lanzarse al público general
(simonwillison.net)Anthropic decidió no publicar su nuevo modelo Claude Mythos para el público general, y en su lugar distribuirlo únicamente a socios de investigación en seguridad seleccionados mediante un programa de vista previa restringida llamado "Project Glasswing". La razón es simple: la capacidad de este modelo para detectar vulnerabilidades de ciberseguridad es tan poderosa que, si se usara mal, podría representar una amenaza para la infraestructura a nivel mundial.
¿Qué es Claude Mythos?
Mythos es un modelo de propósito general similar a Claude Opus 4.6, pero con capacidades de investigación en ciberseguridad abrumadoramente superiores. Anthropic ya dijo que este modelo ha descubierto miles de vulnerabilidades de alto riesgo, incluyendo en todos los principales sistemas operativos y navegadores web.
Algunos ejemplos concretos de sus capacidades:
- Al escribir un exploit para navegador web, redactó código de ataque complejo que encadenaba 4 vulnerabilidades para escapar tanto del renderizador como del sandbox del sistema operativo.
- En un experimento para convertir una vulnerabilidad del motor de JavaScript de Firefox 147 en un exploit, Opus 4.6 tuvo 2 éxitos tras cientos de intentos, mientras que Mythos logró 181 éxitos y además consiguió control de registros en 29 ocasiones adicionales.
Vulnerabilidades descubiertas en la práctica
Nicholas Carlini, de Anthropic, dijo lo siguiente:
> "En las últimas semanas he encontrado más bugs de los que encontré en toda mi vida. En OpenBSD encontramos un bug que había existido durante 27 años, una vulnerabilidad con la que podías tirar un servidor enviando solo unos cuantos fragmentos de datos."
De hecho, se confirmó que esa vulnerabilidad de OpenBSD fue corregida por completo con un parche del 25 de marzo de 2026.
Señales de alerta en la industria
Entre los expertos en seguridad ya se estaban encendiendo las alarmas sobre la capacidad de la IA para detectar vulnerabilidades.
- Greg Kroah-Hartman, del kernel de Linux: "Algo cambió más o menos hace un mes. Ahora están llegando reportes de seguridad reales generados por IA, y además son de buena calidad."
- Daniel Stenberg, de curl: "Los problemas de seguridad relacionados con IA pasaron de un 'tsunami de basura de IA' a un 'tsunami de reportes de seguridad reales'. Estoy dedicando varias horas al día solo a procesar esto."
¿Qué es Project Glasswing?
En vez de liberar Mythos al público general, Anthropic optó por incorporar como socios a AWS, Apple, Microsoft, Google, Linux Foundation y otros, para que primero puedan encontrar y corregir vulnerabilidades en sus propios sistemas. Esto incluye créditos de uso por un valor de 100 millones de dólares y 4 millones de dólares en donaciones directas a organizaciones de seguridad de código abierto.
Opinión del autor
Simon Willison, autor del blog, apoyó la decisión de distribución limitada al señalar que "decir 'nuestro modelo es demasiado peligroso' puede sonar a marketing, pero en este caso esa cautela está suficientemente justificada". Considera esta situación como un "cambio tectónico" que requiere una respuesta de toda la industria, y expresó su deseo de que OpenAI también se sume a esta iniciativa.
Implicaciones
El mensaje central del texto es que la capacidad de la IA para encontrar vulnerabilidades de seguridad ya alcanzó un nivel que supera al de los expertos humanos. Este es uno de los riesgos más reales que la IA puede traer consigo, y tiene implicaciones importantes para toda organización que opere infraestructura.
Texto original: Simon Willison's Weblog, 2026.04.07
5 comentarios
Trabajo en desarrollo de seguridad móvil, y esto sí me da un poco de miedo.
En el lado de las apps financieras, hasta ahora hemos diseñado las defensas partiendo de que el atacante haría análisis manual con Frida o Ghidra. Incluso la profundidad de la ofuscación y la lógica de detección terminan basándose en cuánto tiempo le toma analizarlo a una persona, pero últimamente siento que esa premisa se está tambaleando.
No sabría señalar exactamente qué es, pero la velocidad es distinta. Se siente como si la industria de la seguridad fuera a cambiar por completo...
Si de verdad está a ese nivel, seguro también encontraría rapidísimo vulnerabilidades de seguridad en un binario desensamblado.
Incluso enviaron un parche a ffmpeg y fue aceptado.
https://x.com/ffmpeg/status/2041612029459374511
Claro, seguramente es para promoción, pero como siempre dice ffmpeg: "otras empresas no lo enviaron, pero" ..
Si pienso en cómo Sam Altman también se emocionó de más antes de que saliera GPT-5, pues sí-
Parece que lo van a abrir para usuarios Max con un cobro adicional..