Project Glasswing: actualización inicial
(anthropic.com)- Project Glasswing es un proyecto colaborativo para proteger software crítico antes de que se abuse de modelos de IA más potentes, con la participación de unas 50 organizaciones asociadas
- Claude Mythos Preview encontró más de 10 mil vulnerabilidades de alta gravedad y críticas en código de socios, y la velocidad de hallazgo en varios socios se aceleró más de 10 veces
- Estimó 23,019 vulnerabilidades en más de 1,000 proyectos de código abierto, y de 1,752 verificadas, el 90.6% se confirmó como verdadero positivo
- El cuello de botella se desplazó del hallazgo de vulnerabilidades a la verificación, reporte, parcheo y despliegue, y los errores de alta gravedad y críticos tardan en promedio 2 semanas en corregirse
- Anthropic todavía no ha publicado de forma general modelos de nivel Mythos, y desarrolladores y defensores necesitan acortar los ciclos de parcheo y reforzar los controles básicos de seguridad
Resultados iniciales y principios de divulgación
- Project Glasswing es un proyecto colaborativo para proteger software importante a nivel mundial antes de que modelos de IA más potentes puedan ser mal utilizados
- Anthropic y unas 50 organizaciones asociadas descubrieron con Claude Mythos Preview más de 10 mil vulnerabilidades de gravedad alta o crítica en software importante
- El cuello de botella de la seguridad de software pasó de la velocidad para encontrar nuevas vulnerabilidades a la velocidad para verificar, divulgar y corregir la gran cantidad de vulnerabilidades encontradas por IA
-
Método de divulgación de vulnerabilidades
- La práctica habitual de divulgación de vulnerabilidades consiste en revelar una nueva vulnerabilidad 90 días después de su hallazgo o, si el parche está listo antes de esos 90 días, divulgarla unos 45 días después de ofrecer el parche
- La política de Coordinated Vulnerability Disclosure de Anthropic también sigue este enfoque, con el objetivo de dar tiempo a los usuarios finales para actualizar antes de que ocurra un ataque
- Divulgar antes de tiempo los detalles de las vulnerabilidades encontradas por Mythos Preview en socios podría poner en riesgo a los usuarios finales, por lo que por ahora se comparten sobre todo ejemplos representativos y estadísticas agregadas
- Se publicarán detalles técnicos más completos una vez que los parches estén ampliamente desplegados
Desempeño observado con socios y en evaluaciones externas
- Los primeros socios de Project Glasswing crean y mantienen software clave para el funcionamiento de internet y la infraestructura esencial
- Corregir fallas en ese código reduce el riesgo para muchas organizaciones y para miles de millones de usuarios finales que dependen de ese software
- Un mes después del inicio del proyecto, la mayoría de los socios ya había encontrado cientos de vulnerabilidades críticas o de alta gravedad, y el total de hallazgos superó las 10 mil
- La velocidad de hallazgo de errores en varios socios aumentó más de 10 veces
- Cloudflare encontró 2,000 errores en sistemas de ruta crítica, de los cuales 400 eran de gravedad alta o crítica, y evaluó que la tasa de falsos positivos era mejor que la de evaluadores humanos
-
Pruebas externas y benchmarks
- El AI Security Institute del Reino Unido evaluó a Mythos Preview como el primer modelo en resolver de punta a punta sus dos cyber ranges, es decir, simulaciones de ataques cibernéticos de múltiples etapas
- Mozilla encontró y corrigió 271 vulnerabilidades en pruebas de Firefox 150, más de 10 veces la cantidad encontrada en Firefox 148 con Claude Opus 4.6
- La plataforma de seguridad independiente XBOW evaluó que Mythos Preview mostró un “salto importante” sobre todos los modelos previos en benchmarks de exploits web y ofreció una “precisión sin precedentes” por token
- ExploitBench y ExploitGym son benchmarks académicos recientes para medir capacidad de desarrollo de exploits, y Mythos Preview mostró el mejor desempeño
-
Cambios en la velocidad de despliegue de parches
- La última versión de Palo Alto Networks incluyó más de 5 veces la cantidad habitual de parches
- Microsoft señaló que la cantidad de nuevos parches “seguirá en una tendencia ascendente por algún tiempo”
- Oracle está encontrando y corrigiendo vulnerabilidades en productos y en su nube varias veces más rápido que antes
- Mythos Preview también se usó en tareas de seguridad distintas a la detección de vulnerabilidades; en un banco socio de Glasswing ayudó a detectar y bloquear un intento de transferencia fraudulenta por 1.5 millones de dólares después de que actores maliciosos comprometieran una cuenta de correo de cliente y usaran incluso llamadas suplantadas
Resultados del escaneo de código abierto
- Anthropic escaneó durante los últimos meses con Mythos Preview más de 1,000 proyectos de código abierto que sostienen una parte importante de internet y de su propia infraestructura
- Mythos Preview estimó un total de 23,019 vulnerabilidades en esos proyectos, de las cuales 6,202 fueron evaluadas como de gravedad alta o crítica
-
Métricas de vulnerabilidades verificadas
- De las vulnerabilidades evaluadas como de gravedad alta o crítica, 1,752 fueron evaluadas cuidadosamente por 6 firmas independientes de investigación de seguridad o, en algunos casos, por Anthropic
- De ellas, el 90.6%, es decir 1,587, se confirmó como verdadero positivo
- De ellas, el 62.4%, es decir 1,094, se confirmó como de gravedad alta o crítica
- Si se aplica la tasa de verdadero positivo según el criterio actual de clasificación posterior, incluso si Mythos Preview dejara de encontrar nuevas vulnerabilidades, se espera que salgan a la luz casi 3,900 vulnerabilidades de gravedad alta o crítica en código abierto
- Anthropic planea seguir escaneando código abierto por ahora, por lo que se espera que esta cifra aumente
-
Ejemplo de vulnerabilidad en wolfSSL
- wolfSSL es una biblioteca criptográfica de código abierto conocida por su seguridad y usada en miles de millones de dispositivos en todo el mundo
- Mythos Preview construyó un exploit que permite a un atacante falsificar certificados
- Esta vulnerabilidad permitiría a un atacante operar un sitio web falso de un banco o de un proveedor de correo electrónico que al usuario final le parecería legítimo, aunque en realidad estaría controlado por el atacante
- La vulnerabilidad ya fue corregida y recibió el identificador CVE-2026-5194
- El análisis técnico completo se publicará en las próximas semanas
Cuello de botella en verificación, divulgación y parcheo
- Aunque Mythos Preview facilitó enormemente el descubrimiento de vulnerabilidades, el cuello de botella está en la capacidad humana para clasificar, reportar, diseñar parches y desplegarlos
- Anthropic publicó un panel de vulnerabilidades de código abierto escaneadas para seguir cada etapa y el avance del proceso de divulgación coordinada
- La gran reducción de cifras en cada etapa refleja la carga de trabajo humana necesaria para verificar y corregir cada vulnerabilidad individual
- Anthropic o firmas externas de seguridad reproducen los problemas encontrados por Mythos, vuelven a evaluar su gravedad, comprueban si ya fueron corregidos y redactan reportes detallados para enviarlos a los mantenedores
- Los mantenedores de código abierto están lidiando, además de su carga habitual, con una avalancha de reportes de errores generados por IA y de baja calidad
- Varios mantenedores tienen una capacidad de procesamiento muy limitada, y algunos han pedido retrasar la velocidad de divulgación porque necesitan tiempo para diseñar parches
- Los errores de gravedad alta o crítica encontrados por Mythos Preview tardan en promedio 2 semanas en corregirse
-
Estado de divulgación y parcheo
- A petición de los mantenedores, en algunos casos los errores se divulgan directamente sin evaluación adicional
- Hasta ahora se han reportado directamente 1,129 errores no verificados, de los cuales 175 fueron estimados por Mythos Preview como de gravedad alta o crítica
- Actualmente se estima que se han divulgado a mantenedores unos 530 errores de gravedad alta o crítica
- Además, hay 827 vulnerabilidades confirmadas que también se estiman como de gravedad alta o crítica y serán divulgadas lo más rápido posible de la misma manera
- De los 530 errores reportados de gravedad alta o crítica, 75 ya fueron corregidos, y 65 de ellos recibieron una advertencia pública
- Como la ventana de 90 días de la política de Coordinated Vulnerability Disclosure todavía está en una fase temprana, se espera que aparezcan más parches en adelante
- Algunas vulnerabilidades se corrigen sin advertencia pública, por lo que hay que escanear directamente con Claude si hubo parche; esto implica que la cantidad de parches podría estar subestimada
- Encontrar vulnerabilidades se volvió más fácil, pero corregirlas sigue siendo lento; este desequilibrio está emergiendo como un gran reto para la ciberseguridad y, si se maneja bien, el software podría volverse mucho más seguro que antes
Respuesta a una nueva etapa de la ciberseguridad
- Se espera que pronto estén más ampliamente disponibles modelos con capacidades de ciberseguridad similares a Mythos Preview
- Se necesita un esfuerzo de mayor escala en toda la industria del software para gestionar el gran volumen de hallazgos que producirán estos modelos
- Incluso hoy suele haber retrasos largos entre el descubrimiento de vulnerabilidades, la redacción de parches y el momento en que los parches se despliegan ampliamente a usuarios finales
- Los modelos de nivel Mythos reducen de forma importante el tiempo y el costo necesarios para encontrar y explotar vulnerabilidades, lo que aumenta el riesgo generado por esos retrasos
- A largo plazo, los modelos de nivel Mythos pueden ayudar a los desarrolladores a crear software mucho más seguro al detectar errores antes del despliegue
- Pero durante esta etapa intermedia, en la que las vulnerabilidades se descubren rápido y los parches avanzan lento, surgen nuevos riesgos
-
Medidas necesarias para desarrolladores de software
- Los desarrolladores deben reducir los ciclos de parcheo y entregar correcciones de seguridad lo más rápido posible
- Usar con cuidado modelos de IA disponibles públicamente puede ayudar en esta tarea
- Deben hacer que la instalación de actualizaciones sea lo más fácil posible para que los usuarios se mantengan en la versión más reciente
- En la medida de lo posible, deben insistir más en que actualicen los usuarios que siguen ejecutando software con vulnerabilidades conocidas
-
Medidas necesarias para defensores de red
- Los defensores de red deben acortar sus calendarios de prueba y despliegue de parches
- Los controles clave propuestos por el National Institute of Standards and Technology y el National Cyber Security Centre del Reino Unido se vuelven más importantes porque mejoran la seguridad sin depender de que un parche específico se aplique a tiempo
- Eso incluye medidas como reforzar la configuración base de la red, exigir autenticación multifactor y mantener registros integrales para detección y respuesta
Herramientas defensivas con modelos de IA públicos
- En general, muchos modelos disponibles públicamente no pueden encontrar las vulnerabilidades más sofisticadas ni explotarlas con la misma eficacia que Claude Mythos Preview, pero ya pueden detectar muchas vulnerabilidades de software
- Project Glasswing impulsó a varias organizaciones a revisar sus propias bases de código con modelos de acceso público, y Anthropic está trabajando para facilitarlo aún más
-
Claude Security
- Claude Security se lanzó en beta pública para clientes de Claude Enterprise
- Es una herramienta que ayuda a los equipos a escanear vulnerabilidades en sus bases de código y generar correcciones sugeridas
- En las tres semanas posteriores al lanzamiento, Claude Opus 4.7 se usó para corregir más de 2,100 vulnerabilidades
- Las empresas corrigen su propio código, mientras que las correcciones en código abierto suelen requerir divulgación coordinada y mantenedores voluntarios; por eso la velocidad de parcheo con Claude Security fue mayor que la del código abierto mencionado antes
-
Cyber Verification Program
- El Cyber Verification Program permite que profesionales de seguridad usen modelos de Anthropic con fines legítimos de ciberseguridad
- Para usos como investigación de vulnerabilidades, pruebas de penetración o actividades de red team, los modelos pueden usarse sin algunas protecciones contra mal uso cibernético
-
Herramientas usadas junto con Mythos Preview
- Las herramientas que Anthropic y sus socios usaron junto con Mythos Preview se ofrecen a equipos de seguridad de clientes calificados bajo solicitud
- El objetivo es ayudar a aprovechar mejor el rendimiento de modelos públicos potentes sin necesidad de configuraciones complejas
- skills: instrucciones personalizadas para tareas repetitivas creadas y compartidas por Anthropic y sus socios
- harness: configuración que ayuda a Claude a mapear una base de código, lanzar subagentes de escaneo, clasificar hallazgos y redactar reportes
- constructor de modelos de amenazas: mapea una base de código para identificar posibles objetivos de ataque y priorizar el trabajo del modelo
- Cisco es uno de los socios de Project Glasswing y recientemente publicó como código abierto Foundry Security Spec para que otros defensores puedan crear sistemas de evaluación similares a los de Cisco
Apoyo al ecosistema y próximos pasos
- Anthropic se asoció con el proyecto Alpha-Omega de la Open Source Security Foundation para apoyar a mantenedores en el manejo y clasificación de reportes de errores
- Anthropic apoya el desarrollo de nuevos benchmarks, ExploitBench y ExploitGym, para seguir en el tiempo la capacidad de modelos frontier de IA para desarrollar exploits
- Más contenido sobre estos benchmarks aparece en el blog Frontier Red Team
- También apoya el desarrollo de otros benchmarks cuantitativos de alta calidad a través del External Researcher Access Program
- Claude for Open Source apoya a mantenedores y contribuidores, y Anthropic afirmó que en adelante escaneará todos los paquetes de código abierto que adopte internamente
- Dado el ritmo de avance de la IA, se espera que pronto varias empresas desarrollen modelos tan potentes como Mythos Preview
- Actualmente, ninguna empresa, incluida Anthropic, ha desarrollado salvaguardas lo bastante fuertes como para impedir que estos modelos se usen indebidamente y causen daños graves
- Por eso Anthropic todavía no publica al público general modelos de nivel Mythos
- Project Glasswing nació de la preocupación de que, si modelos con capacidades similares se publican sin salvaguardas suficientes, explotar software defectuoso podría volverse mucho más barato y fácil para casi cualquier persona en el mundo
- Glasswing ayuda a que los defensores cibernéticos más importantes a nivel sistémico obtengan una ventaja asimétrica, pero existe una necesidad urgente de que la mayor cantidad posible de organizaciones fortalezca su defensa
- Anthropic planea ampliar Project Glasswing a más socios en colaboración con aliados clave, incluidos el gobierno de Estados Unidos y gobiernos aliados
- Su objetivo es ofrecer en un futuro cercano modelos de nivel Mythos en una modalidad de lanzamiento general, después de desarrollar salvaguardas mucho más fuertes, que son necesarias
- El objetivo a largo plazo es crear un entorno en el que el código importante esté mucho mejor protegido que hoy y en el que los hackeos sean mucho menos comunes
1 comentarios
Comentarios de Hacker News
Activamos Codex Security como experimento y en menos de una semana se volvió una herramienta obligatoria para todo el equipo
La precisión fue sorprendente, encontró muchos problemas de seguridad en código existente y los siguió detectando en cada commit
Para nosotros tiene alrededor de 90% de precisión, e incluso muchos elementos marcados como “Low” resultaron ser realmente explotables cuando los investigamos a fondo
Como este tipo de errores es una clase de bug que cometen tanto juniors como seniors, parece que en adelante el flujo de programar con IA, revisar con IA y encontrar vulnerabilidades con IA será una parte normal del ciclo de vida de desarrollo
Probé un enfoque en el que se usa un bucle iterativo para profundizar en problemas y bugs en cada etapa del desarrollo, desde el diseño hasta la codificación, verificando así que el software resultante funcione realmente como se pretendía
La UI es un poco confusa: muestra “5 escaneos”, pero 1 escaneo significa monitoreo continuo de la rama principal del repositorio
Casi todos los hallazgos de alto impacto fueron correctos, y me sorprendió en especial la calidad de la documentación y lo precisas y acotadas que eran las sugerencias de corrección
Codex solía generar bastante más código del necesario, pero los parches del modelo de seguridad a menudo tienen menos de 10 líneas y apuntan justo al lugar correcto
Cuando termine la beta probablemente será bastante caro, pero para una empresa dan ganas de adoptarlo de inmediato de lo bueno que es
En código, yo prefiero que haya menos, así que esta tendencia me resulta bastante frustrante
¿Cómo evitan esa trampa?
gpt-5.5-cybercomo orquestador ydeepseek-v4-flashu otros modelos rápidos y baratos como trabajadoresCon esa configuración estamos obteniendo resultados bastante buenos
No tengo claro cómo reconciliar la actualización de Anthropic y algunas reacciones algo exageradas aquí con la evaluación reciente del mantenedor de curl, Daniel Steinberg
“No veo evidencia de que esta configuración [Mythos] encuentre problemas en un nivel particularmente más alto o más avanzado que otras herramientas anteriores a Mythos. Puede que este modelo sea un poco mejor, pero aun así no lo suficiente como para generar un cambio significativo en el análisis de código.”
https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-v...
Pero el informe del gobierno británico también es un dato, y el informe de Firefox también lo es, y ambos sugieren que sí es considerablemente mejor que los modelos de la generación actual
Tal vez curl simplemente tenga un código mucho más endurecido que la mayoría de los proyectos
En cualquier caso no importa tanto, porque como admite Anthropic, ya vienen modelos del siguiente nivel y Mythos es solo uno de ellos
Los modelos de la generación actual ya son buenos para seguir el flujo de datos en sistemas complejos, y no hay motivo para pensar que esa capacidad haya llegado a su límite
Parece bastante probable que dentro de un año haya varios modelos comerciales capaces de encontrar vulnerabilidades de forma barata
En cambio, en el diseño de soluciones para este tipo de problemas parece haber mucho menos avance
En general, la capacidad de las herramientas para encontrar bugs de seguridad ha mejorado mucho, y solo con la experiencia de uso de Daniel no estaba claro si Mythos en sí era un salto gigantesco, pero los LLM de la generación Mythos sí lo son claramente
Eso sí, Daniel usó Mythos de forma algo indirecta
La conclusión del debate sobre Mythos es que a) probablemente Anthropic tuvo que limitar el acceso a Mythos por su escasez de GPU, lo que también habría influido en el cálculo sobre si hacerlo público o no, y b) encontrar bugs con Mythos o modelos similares sigue siendo caro
Si en curl hubieran hecho una ejecución de Mythos de 20 mil o 100 mil dólares, quizá habrían salido problemas de un nivel parecido al de otros proyectos como Firefox, pero Daniel no recibió ese nivel de acceso
La actualización general que publicó hoy en LinkedIn muestra un contexto más amplio
https://www.linkedin.com/feed/update/urn:li:activity:7463481...
“Ni siquiera hemos llegado a la mitad de este ciclo de lanzamiento de curl y ya hay 11 vulnerabilidades confirmadas, quedan 3 pendientes de evaluación y siguen llegando nuevos reportes a un ritmo de más de 1 por día.”
“Anunciar 11 CVE en una sola versión es un récord desde la primera auditoría de seguridad de Cure 53 en 2016.”
“Es el periodo más intenso que recuerdo en la historia de curl.”
No es para nada un caso típico, así que parece posible que esos factores hayan influido
Claro, no puedo asegurar si hay sesgo o no; quizá Daniel simplemente tenga razón
Puede que el código fuente de curl ya estuviera bastante limpio desde el inicio
No esperaría que curl fuera el caso promedio para Mythos
Ha habido mucho cinismo con Mythos, en el sentido de “solo le quitaron las protecciones a un modelo público ya existente”, pero estas cifras cuentan otra historia
“Se revisaron cuidadosamente 1,752 vulnerabilidades de severidad alta o crítica mediante 6 empresas independientes de investigación de seguridad o, en unos pocos casos, mediante nuestra propia evaluación. De ellas, el 90.6% (1,587) se demostró como verdaderos positivos válidos y el 62.4% (1,094) se confirmó con severidad alta o crítica.”
Quien haya hecho escaneos de vulnerabilidades con Opus, Codex o modelos open source sabe que tanto la tasa de verdaderos positivos como el volumen de hallazgos representan claramente un cambio de nivel[0]
La mayoría de los alrededor de 50 socios de Glasswing ya habían probado antes arneses con otros modelos, y en general la reacción fue “wow, esto es diferente”
Ahora la cuestión es cómo serán el acceso de etapa 2 y etapa 3, y qué familias de sistemas se protegerán primero
Hay demasiado por hacer: routers, firewalls, SaaS, ERP, controladores industriales, SCADA, gateways VPN zero trust, equipos y redes de telecomunicaciones, incluso dispositivos médicos
Por eso creo que Mythos seguirá cerrado por un tiempo
La superficie de ataque que hay que proteger es demasiado amplia, y hay demasiado que clasificar, corregir y desplegar
Esto también puede favorecer a Anthropic, porque un modelo cerrado no se puede destilar
Además, hay un efecto de bola de nieve en la mejora del modelo a partir de los datos de descubrimiento, clasificación y corrección
Muy probablemente ya sea el corpus de datos de ataque curado con más fuerza reunido hasta ahora, y solo va a mejorar
No me imagino que una empresa china vaya a recibir acceso pronto, o tal vez nunca
Quizá pronto llegue un mundo en el que CISA obligue auditorías y, si quieres comprar un gateway VPN o un router doméstico que resista a Mythos, tengas que comprar uno fabricado en EE. UU.[1]
[0] Comparado con el ~30% de herramientas de auditoría generales
[1] O de un país aliado
Me cuesta creer que esto no se pueda replicar
Ya hay suficiente dato anotado como CVE y parches, y Mythos está haciendo que haya más, así que creo que si haces aprendizaje por refuerzo orientado a este escenario puedes mejorar la detección de vulnerabilidades incluso sin acceso a Mythos
OpenAI restringió por primera vez el acceso al modelo diciendo que “la humanidad aún no estaba lista”, cuando ese modelo apenas escribía poemas y cosas así
Desde entonces no recuerdo un solo lanzamiento de modelo de OAI/Anthropic que no usara un lenguaje parecido
Decir que un modelo “se filtró” es marketing, decir que es peligroso es marketing y decir que el mundo no está preparado también es marketing
Que quienes recibieron acceso digan “wow” también es marketing, para creerlo o no
Ya puedes obtener los mismos resultados con los 5 a 10 mejores modelos de uso general que existen hoy
Mythos es la manera en que Anthropic vende una idea nueva después de que las ideas anteriores ya se democratizaron
Parece razonable esperar algo grande en Sonnet 4.8
Si todavía no estás aplicando análisis estático y linters a tu base de código, primero habría que preguntarse por qué quieres aplicar una herramienta LLM costosa
Eso no significa que estas herramientas no puedan encontrar vulnerabilidades que las herramientas estáticas no detectan; creo que sí pueden
Pero ya tenemos capacidad de detectar automáticamente una gran franja de vulnerabilidades comunes, y aun así hemos decidido no hacerlo por razones como el costo
Si un equipo que ya aplica varias capas de análisis y linting quiere sumar esto encima, estoy totalmente a favor
Incluso estando en FAANG, nuestras herramientas de análisis estático ni siquiera son excelentes para identificar cuántos problemas son realmente alcanzables
Idealmente deberías usar ambos
Lo bueno es que un modelo de IA que tenga análisis estático como parte del arnés evalúe cada hallazgo potencial
Herramientas más inteligentes pueden ayudarte a no desperdiciar tiempo de ingeniería limitado
La mayoría de quienes hacen esto ahora no usaban herramientas de análisis estático porque las consideraban un extra innecesario
Las únicas vulnerabilidades que quiero que arreglen ya son las de los 3,800 repositorios robados de GitHub
Honestamente, “las vulnerabilidades del software que construye internet” me preocupan menos que “la plataforma que el software que construye internet usa para producir releases”
Si quienes compraron esos repositorios internos encuentran una forma de meterse en GitHub para cortar releases de software o contaminar GitHub Actions de forma remota, todos vamos a estar en una situación gravísima
Y no hay que olvidar que entre esos 3,800 repositorios probablemente también esté npmjs.org mismo
Hemos estado desarrollando en legal tech, con modelos frontier para consumidores, lo que llamamos “lexploits”, y son absurdamente buenos para encontrar bugs en pipelines integrados de punta a punta
También son sorprendentemente buenos creando mitigaciones
Las vulnerabilidades de seguridad importan, pero en el ámbito legal proponemos además el concepto de seguridad del conocimiento, que protege la fidelidad contextual legal del agente
Los bugs de software parecen mucho más manejables porque los gestiona ingeniería de software, mientras que las “vulnerabilidades” de pipeline que nosotros encontramos no tienen eso
Aquí escribí un poco sobre una vía en la que los documentos legales no son lo que parecen: https://tritium.legal/blog/noroboto
Habrá muchas áreas de conocimiento expuestas de esta forma, y preocupa más porque la mayoría tiene poco personal y está gestionada por personas no técnicas
Ni siquiera hace falta Mythos
La frase “A continuación trabajaremos con socios clave adicionales, incluidos los gobiernos de EE. UU. y de países aliados, para ampliar Project Glasswing a más socios” suena a que van a ganar mucho dinero antes de hacer un lanzamiento general
Buena estrategia
Me cuesta creerlo
Gran parte de lo que encuentra esta herramienta simplemente está mal, y a veces se reporta como verdadero aunque la posibilidad de explotarlo realmente quede anulada por capas superiores o inferiores del código
También es un tradeoff entre rendimiento y seguridad, y siempre lo ha sido
Las verificaciones adicionales y otras medidas sí deben realizarse con fines reales de seguridad
El marketing siempre es excelente, pero la visión color de rosa que tiene mucha gente me parece una especie de fantasía vicaria
No son vulnerabilidades inalcanzables
“El cuello de botella para corregir este tipo de bugs es la capacidad de clasificar, reportar y diseñar y desplegar parches. Mythos Preview ha hecho que la parte inicial, descubrirlos, sea mucho más simple.”
Ese siempre ha sido el cuello de botella
A las herramientas automáticas les encanta marcar vulnerabilidades, pero casi todas son falsos positivos y una persona tiene que clasificarlas y evaluarlas
Aun así está bien
Creo que es mejor cerrarlas como falsos positivos tras una revisión cuidadosa que ni siquiera detectarlas
No me parece correcto llamar cuello de botella a las personas
Las personas son una parte esencial del proceso, y Mythos será un catalizador dentro de ese proceso
Demostrar la vulnerabilidad era mucho más difícil que resolverla
Hoy fue un día bastante divertido
Hice que subagentes de
deepseek-v4-flashgeneraran parches para obtener root con Dirty Frag en un sistema con AF_ALG desactivado y nscd activadoEl exploit publicado originalmente no funcionaba, pero el parcheado funcionó muy bien
Sigo creyendo que 100 subagentes con inteligencia razonable pueden lograr el mismo resultado que Mythos
Algún día espero probar Mythos directamente y estar listo para que esa idea se venga abajo, y asumo que otras personas aquí ya lo habrán usado
Así que la pregunta no es “¿un modelo más tonto también puede hacer esto?”, sino cuántas horas de GPU requeriría un modelo más tonto si encontrar un exploit con el razonamiento de Mythos cuesta 5,000 horas de GPU