1 puntos por GN⁺ 3 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Project Glasswing es un proyecto colaborativo para proteger software crítico antes de que se abuse de modelos de IA más potentes, con la participación de unas 50 organizaciones asociadas
  • Claude Mythos Preview encontró más de 10 mil vulnerabilidades de alta gravedad y críticas en código de socios, y la velocidad de hallazgo en varios socios se aceleró más de 10 veces
  • Estimó 23,019 vulnerabilidades en más de 1,000 proyectos de código abierto, y de 1,752 verificadas, el 90.6% se confirmó como verdadero positivo
  • El cuello de botella se desplazó del hallazgo de vulnerabilidades a la verificación, reporte, parcheo y despliegue, y los errores de alta gravedad y críticos tardan en promedio 2 semanas en corregirse
  • Anthropic todavía no ha publicado de forma general modelos de nivel Mythos, y desarrolladores y defensores necesitan acortar los ciclos de parcheo y reforzar los controles básicos de seguridad

Resultados iniciales y principios de divulgación

  • Project Glasswing es un proyecto colaborativo para proteger software importante a nivel mundial antes de que modelos de IA más potentes puedan ser mal utilizados
  • Anthropic y unas 50 organizaciones asociadas descubrieron con Claude Mythos Preview más de 10 mil vulnerabilidades de gravedad alta o crítica en software importante
  • El cuello de botella de la seguridad de software pasó de la velocidad para encontrar nuevas vulnerabilidades a la velocidad para verificar, divulgar y corregir la gran cantidad de vulnerabilidades encontradas por IA
  • Método de divulgación de vulnerabilidades

    • La práctica habitual de divulgación de vulnerabilidades consiste en revelar una nueva vulnerabilidad 90 días después de su hallazgo o, si el parche está listo antes de esos 90 días, divulgarla unos 45 días después de ofrecer el parche
    • La política de Coordinated Vulnerability Disclosure de Anthropic también sigue este enfoque, con el objetivo de dar tiempo a los usuarios finales para actualizar antes de que ocurra un ataque
    • Divulgar antes de tiempo los detalles de las vulnerabilidades encontradas por Mythos Preview en socios podría poner en riesgo a los usuarios finales, por lo que por ahora se comparten sobre todo ejemplos representativos y estadísticas agregadas
    • Se publicarán detalles técnicos más completos una vez que los parches estén ampliamente desplegados

Desempeño observado con socios y en evaluaciones externas

  • Los primeros socios de Project Glasswing crean y mantienen software clave para el funcionamiento de internet y la infraestructura esencial
  • Corregir fallas en ese código reduce el riesgo para muchas organizaciones y para miles de millones de usuarios finales que dependen de ese software
  • Un mes después del inicio del proyecto, la mayoría de los socios ya había encontrado cientos de vulnerabilidades críticas o de alta gravedad, y el total de hallazgos superó las 10 mil
  • La velocidad de hallazgo de errores en varios socios aumentó más de 10 veces
  • Cloudflare encontró 2,000 errores en sistemas de ruta crítica, de los cuales 400 eran de gravedad alta o crítica, y evaluó que la tasa de falsos positivos era mejor que la de evaluadores humanos
  • Pruebas externas y benchmarks

    • El AI Security Institute del Reino Unido evaluó a Mythos Preview como el primer modelo en resolver de punta a punta sus dos cyber ranges, es decir, simulaciones de ataques cibernéticos de múltiples etapas
    • Mozilla encontró y corrigió 271 vulnerabilidades en pruebas de Firefox 150, más de 10 veces la cantidad encontrada en Firefox 148 con Claude Opus 4.6
    • La plataforma de seguridad independiente XBOW evaluó que Mythos Preview mostró un “salto importante” sobre todos los modelos previos en benchmarks de exploits web y ofreció una “precisión sin precedentes” por token
    • ExploitBench y ExploitGym son benchmarks académicos recientes para medir capacidad de desarrollo de exploits, y Mythos Preview mostró el mejor desempeño
  • Cambios en la velocidad de despliegue de parches

    • La última versión de Palo Alto Networks incluyó más de 5 veces la cantidad habitual de parches
    • Microsoft señaló que la cantidad de nuevos parches “seguirá en una tendencia ascendente por algún tiempo”
    • Oracle está encontrando y corrigiendo vulnerabilidades en productos y en su nube varias veces más rápido que antes
    • Mythos Preview también se usó en tareas de seguridad distintas a la detección de vulnerabilidades; en un banco socio de Glasswing ayudó a detectar y bloquear un intento de transferencia fraudulenta por 1.5 millones de dólares después de que actores maliciosos comprometieran una cuenta de correo de cliente y usaran incluso llamadas suplantadas

Resultados del escaneo de código abierto

  • Anthropic escaneó durante los últimos meses con Mythos Preview más de 1,000 proyectos de código abierto que sostienen una parte importante de internet y de su propia infraestructura
  • Mythos Preview estimó un total de 23,019 vulnerabilidades en esos proyectos, de las cuales 6,202 fueron evaluadas como de gravedad alta o crítica
  • Métricas de vulnerabilidades verificadas

    • De las vulnerabilidades evaluadas como de gravedad alta o crítica, 1,752 fueron evaluadas cuidadosamente por 6 firmas independientes de investigación de seguridad o, en algunos casos, por Anthropic
    • De ellas, el 90.6%, es decir 1,587, se confirmó como verdadero positivo
    • De ellas, el 62.4%, es decir 1,094, se confirmó como de gravedad alta o crítica
    • Si se aplica la tasa de verdadero positivo según el criterio actual de clasificación posterior, incluso si Mythos Preview dejara de encontrar nuevas vulnerabilidades, se espera que salgan a la luz casi 3,900 vulnerabilidades de gravedad alta o crítica en código abierto
    • Anthropic planea seguir escaneando código abierto por ahora, por lo que se espera que esta cifra aumente
  • Ejemplo de vulnerabilidad en wolfSSL

    • wolfSSL es una biblioteca criptográfica de código abierto conocida por su seguridad y usada en miles de millones de dispositivos en todo el mundo
    • Mythos Preview construyó un exploit que permite a un atacante falsificar certificados
    • Esta vulnerabilidad permitiría a un atacante operar un sitio web falso de un banco o de un proveedor de correo electrónico que al usuario final le parecería legítimo, aunque en realidad estaría controlado por el atacante
    • La vulnerabilidad ya fue corregida y recibió el identificador CVE-2026-5194
    • El análisis técnico completo se publicará en las próximas semanas

Cuello de botella en verificación, divulgación y parcheo

  • Aunque Mythos Preview facilitó enormemente el descubrimiento de vulnerabilidades, el cuello de botella está en la capacidad humana para clasificar, reportar, diseñar parches y desplegarlos
  • Anthropic publicó un panel de vulnerabilidades de código abierto escaneadas para seguir cada etapa y el avance del proceso de divulgación coordinada
  • La gran reducción de cifras en cada etapa refleja la carga de trabajo humana necesaria para verificar y corregir cada vulnerabilidad individual
  • Anthropic o firmas externas de seguridad reproducen los problemas encontrados por Mythos, vuelven a evaluar su gravedad, comprueban si ya fueron corregidos y redactan reportes detallados para enviarlos a los mantenedores
  • Los mantenedores de código abierto están lidiando, además de su carga habitual, con una avalancha de reportes de errores generados por IA y de baja calidad
  • Varios mantenedores tienen una capacidad de procesamiento muy limitada, y algunos han pedido retrasar la velocidad de divulgación porque necesitan tiempo para diseñar parches
  • Los errores de gravedad alta o crítica encontrados por Mythos Preview tardan en promedio 2 semanas en corregirse
  • Estado de divulgación y parcheo

    • A petición de los mantenedores, en algunos casos los errores se divulgan directamente sin evaluación adicional
    • Hasta ahora se han reportado directamente 1,129 errores no verificados, de los cuales 175 fueron estimados por Mythos Preview como de gravedad alta o crítica
    • Actualmente se estima que se han divulgado a mantenedores unos 530 errores de gravedad alta o crítica
    • Además, hay 827 vulnerabilidades confirmadas que también se estiman como de gravedad alta o crítica y serán divulgadas lo más rápido posible de la misma manera
    • De los 530 errores reportados de gravedad alta o crítica, 75 ya fueron corregidos, y 65 de ellos recibieron una advertencia pública
    • Como la ventana de 90 días de la política de Coordinated Vulnerability Disclosure todavía está en una fase temprana, se espera que aparezcan más parches en adelante
    • Algunas vulnerabilidades se corrigen sin advertencia pública, por lo que hay que escanear directamente con Claude si hubo parche; esto implica que la cantidad de parches podría estar subestimada
    • Encontrar vulnerabilidades se volvió más fácil, pero corregirlas sigue siendo lento; este desequilibrio está emergiendo como un gran reto para la ciberseguridad y, si se maneja bien, el software podría volverse mucho más seguro que antes

Respuesta a una nueva etapa de la ciberseguridad

  • Se espera que pronto estén más ampliamente disponibles modelos con capacidades de ciberseguridad similares a Mythos Preview
  • Se necesita un esfuerzo de mayor escala en toda la industria del software para gestionar el gran volumen de hallazgos que producirán estos modelos
  • Incluso hoy suele haber retrasos largos entre el descubrimiento de vulnerabilidades, la redacción de parches y el momento en que los parches se despliegan ampliamente a usuarios finales
  • Los modelos de nivel Mythos reducen de forma importante el tiempo y el costo necesarios para encontrar y explotar vulnerabilidades, lo que aumenta el riesgo generado por esos retrasos
  • A largo plazo, los modelos de nivel Mythos pueden ayudar a los desarrolladores a crear software mucho más seguro al detectar errores antes del despliegue
  • Pero durante esta etapa intermedia, en la que las vulnerabilidades se descubren rápido y los parches avanzan lento, surgen nuevos riesgos
  • Medidas necesarias para desarrolladores de software

    • Los desarrolladores deben reducir los ciclos de parcheo y entregar correcciones de seguridad lo más rápido posible
    • Usar con cuidado modelos de IA disponibles públicamente puede ayudar en esta tarea
    • Deben hacer que la instalación de actualizaciones sea lo más fácil posible para que los usuarios se mantengan en la versión más reciente
    • En la medida de lo posible, deben insistir más en que actualicen los usuarios que siguen ejecutando software con vulnerabilidades conocidas
  • Medidas necesarias para defensores de red

    • Los defensores de red deben acortar sus calendarios de prueba y despliegue de parches
    • Los controles clave propuestos por el National Institute of Standards and Technology y el National Cyber Security Centre del Reino Unido se vuelven más importantes porque mejoran la seguridad sin depender de que un parche específico se aplique a tiempo
    • Eso incluye medidas como reforzar la configuración base de la red, exigir autenticación multifactor y mantener registros integrales para detección y respuesta

Herramientas defensivas con modelos de IA públicos

  • En general, muchos modelos disponibles públicamente no pueden encontrar las vulnerabilidades más sofisticadas ni explotarlas con la misma eficacia que Claude Mythos Preview, pero ya pueden detectar muchas vulnerabilidades de software
  • Project Glasswing impulsó a varias organizaciones a revisar sus propias bases de código con modelos de acceso público, y Anthropic está trabajando para facilitarlo aún más
  • Claude Security

    • Claude Security se lanzó en beta pública para clientes de Claude Enterprise
    • Es una herramienta que ayuda a los equipos a escanear vulnerabilidades en sus bases de código y generar correcciones sugeridas
    • En las tres semanas posteriores al lanzamiento, Claude Opus 4.7 se usó para corregir más de 2,100 vulnerabilidades
    • Las empresas corrigen su propio código, mientras que las correcciones en código abierto suelen requerir divulgación coordinada y mantenedores voluntarios; por eso la velocidad de parcheo con Claude Security fue mayor que la del código abierto mencionado antes
  • Cyber Verification Program

    • El Cyber Verification Program permite que profesionales de seguridad usen modelos de Anthropic con fines legítimos de ciberseguridad
    • Para usos como investigación de vulnerabilidades, pruebas de penetración o actividades de red team, los modelos pueden usarse sin algunas protecciones contra mal uso cibernético
  • Herramientas usadas junto con Mythos Preview

    • Las herramientas que Anthropic y sus socios usaron junto con Mythos Preview se ofrecen a equipos de seguridad de clientes calificados bajo solicitud
    • El objetivo es ayudar a aprovechar mejor el rendimiento de modelos públicos potentes sin necesidad de configuraciones complejas
    • skills: instrucciones personalizadas para tareas repetitivas creadas y compartidas por Anthropic y sus socios
    • harness: configuración que ayuda a Claude a mapear una base de código, lanzar subagentes de escaneo, clasificar hallazgos y redactar reportes
    • constructor de modelos de amenazas: mapea una base de código para identificar posibles objetivos de ataque y priorizar el trabajo del modelo
    • Cisco es uno de los socios de Project Glasswing y recientemente publicó como código abierto Foundry Security Spec para que otros defensores puedan crear sistemas de evaluación similares a los de Cisco

Apoyo al ecosistema y próximos pasos

  • Anthropic se asoció con el proyecto Alpha-Omega de la Open Source Security Foundation para apoyar a mantenedores en el manejo y clasificación de reportes de errores
  • Anthropic apoya el desarrollo de nuevos benchmarks, ExploitBench y ExploitGym, para seguir en el tiempo la capacidad de modelos frontier de IA para desarrollar exploits
  • Más contenido sobre estos benchmarks aparece en el blog Frontier Red Team
  • También apoya el desarrollo de otros benchmarks cuantitativos de alta calidad a través del External Researcher Access Program
  • Claude for Open Source apoya a mantenedores y contribuidores, y Anthropic afirmó que en adelante escaneará todos los paquetes de código abierto que adopte internamente
  • Dado el ritmo de avance de la IA, se espera que pronto varias empresas desarrollen modelos tan potentes como Mythos Preview
  • Actualmente, ninguna empresa, incluida Anthropic, ha desarrollado salvaguardas lo bastante fuertes como para impedir que estos modelos se usen indebidamente y causen daños graves
  • Por eso Anthropic todavía no publica al público general modelos de nivel Mythos
  • Project Glasswing nació de la preocupación de que, si modelos con capacidades similares se publican sin salvaguardas suficientes, explotar software defectuoso podría volverse mucho más barato y fácil para casi cualquier persona en el mundo
  • Glasswing ayuda a que los defensores cibernéticos más importantes a nivel sistémico obtengan una ventaja asimétrica, pero existe una necesidad urgente de que la mayor cantidad posible de organizaciones fortalezca su defensa
  • Anthropic planea ampliar Project Glasswing a más socios en colaboración con aliados clave, incluidos el gobierno de Estados Unidos y gobiernos aliados
  • Su objetivo es ofrecer en un futuro cercano modelos de nivel Mythos en una modalidad de lanzamiento general, después de desarrollar salvaguardas mucho más fuertes, que son necesarias
  • El objetivo a largo plazo es crear un entorno en el que el código importante esté mucho mejor protegido que hoy y en el que los hackeos sean mucho menos comunes

1 comentarios

 
GN⁺ 3 시간 전
Comentarios de Hacker News
  • Activamos Codex Security como experimento y en menos de una semana se volvió una herramienta obligatoria para todo el equipo
    La precisión fue sorprendente, encontró muchos problemas de seguridad en código existente y los siguió detectando en cada commit
    Para nosotros tiene alrededor de 90% de precisión, e incluso muchos elementos marcados como “Low” resultaron ser realmente explotables cuando los investigamos a fondo
    Como este tipo de errores es una clase de bug que cometen tanto juniors como seniors, parece que en adelante el flujo de programar con IA, revisar con IA y encontrar vulnerabilidades con IA será una parte normal del ciclo de vida de desarrollo

    • Entonces, ¿la idea es que Claude Code crea bugs de seguridad, Claude Security los encuentra y Claude Code genera el parche mientras consume tokens y produce ingresos?
    • https://blog.chuanxilu.net/en/posts/2026/05/dual-pass-review...
      Probé un enfoque en el que se usa un bucle iterativo para profundizar en problemas y bugs en cada etapa del desarrollo, desde el diseño hasta la codificación, verificando así que el software resultante funcione realmente como se pretendía
    • Tuve una experiencia parecida
      La UI es un poco confusa: muestra “5 escaneos”, pero 1 escaneo significa monitoreo continuo de la rama principal del repositorio
      Casi todos los hallazgos de alto impacto fueron correctos, y me sorprendió en especial la calidad de la documentación y lo precisas y acotadas que eran las sugerencias de corrección
      Codex solía generar bastante más código del necesario, pero los parches del modelo de seguridad a menudo tienen menos de 10 líneas y apuntan justo al lugar correcto
      Cuando termine la beta probablemente será bastante caro, pero para una empresa dan ganas de adoptarlo de inmediato de lo bueno que es
    • Uno de los problemas que he visto en los LLM es que, con el pretexto de la “seguridad”, agregan código innecesario y generan con mucha confianza montones de cosas que antes eran útiles pero que hoy la biblioteca estándar resuelve bien
      En código, yo prefiero que haya menos, así que esta tendencia me resulta bastante frustrante
      ¿Cómo evitan esa trampa?
    • Recomiendo una configuración con gpt-5.5-cyber como orquestador y deepseek-v4-flash u otros modelos rápidos y baratos como trabajadores
      Con esa configuración estamos obteniendo resultados bastante buenos
  • No tengo claro cómo reconciliar la actualización de Anthropic y algunas reacciones algo exageradas aquí con la evaluación reciente del mantenedor de curl, Daniel Steinberg
    “No veo evidencia de que esta configuración [Mythos] encuentre problemas en un nivel particularmente más alto o más avanzado que otras herramientas anteriores a Mythos. Puede que este modelo sea un poco mejor, pero aun así no lo suficiente como para generar un cambio significativo en el análisis de código.”
    https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-v...

    • Es cierto, y es un dato válido
      Pero el informe del gobierno británico también es un dato, y el informe de Firefox también lo es, y ambos sugieren que sí es considerablemente mejor que los modelos de la generación actual
      Tal vez curl simplemente tenga un código mucho más endurecido que la mayoría de los proyectos
      En cualquier caso no importa tanto, porque como admite Anthropic, ya vienen modelos del siguiente nivel y Mythos es solo uno de ellos
      Los modelos de la generación actual ya son buenos para seguir el flujo de datos en sistemas complejos, y no hay motivo para pensar que esa capacidad haya llegado a su límite
      Parece bastante probable que dentro de un año haya varios modelos comerciales capaces de encontrar vulnerabilidades de forma barata
      En cambio, en el diseño de soluciones para este tipo de problemas parece haber mucho menos avance
    • Creo que algunas personas están malinterpretando el punto de Daniel, pero en el contexto completo del texto queda más claro
      En general, la capacidad de las herramientas para encontrar bugs de seguridad ha mejorado mucho, y solo con la experiencia de uso de Daniel no estaba claro si Mythos en sí era un salto gigantesco, pero los LLM de la generación Mythos sí lo son claramente
      Eso sí, Daniel usó Mythos de forma algo indirecta
      La conclusión del debate sobre Mythos es que a) probablemente Anthropic tuvo que limitar el acceso a Mythos por su escasez de GPU, lo que también habría influido en el cálculo sobre si hacerlo público o no, y b) encontrar bugs con Mythos o modelos similares sigue siendo caro
      Si en curl hubieran hecho una ejecución de Mythos de 20 mil o 100 mil dólares, quizá habrían salido problemas de un nivel parecido al de otros proyectos como Firefox, pero Daniel no recibió ese nivel de acceso
      La actualización general que publicó hoy en LinkedIn muestra un contexto más amplio
      https://www.linkedin.com/feed/update/urn:li:activity:7463481...
      “Ni siquiera hemos llegado a la mitad de este ciclo de lanzamiento de curl y ya hay 11 vulnerabilidades confirmadas, quedan 3 pendientes de evaluación y siguen llegando nuevos reportes a un ritmo de más de 1 por día.”
      “Anunciar 11 CVE en una sola versión es un récord desde la primera auditoría de seguridad de Cure 53 en 2016.”
      “Es el periodo más intenso que recuerdo en la historia de curl.”
    • curl tiene más ojos encima, más herramientas aplicadas, mejores pruebas que el 99% del software y probablemente también mejor desarrollo
      No es para nada un caso típico, así que parece posible que esos factores hayan influido
      Claro, no puedo asegurar si hay sesgo o no; quizá Daniel simplemente tenga razón
    • No es una contradicción que distintas personas tengan experiencias distintas
      Puede que el código fuente de curl ya estuviera bastante limpio desde el inicio
    • Daniel lleva meses, quizá años, escribiendo sobre cuánta presión de validación recibe de investigadores de seguridad y de varias herramientas automatizadas
      No esperaría que curl fuera el caso promedio para Mythos
  • Ha habido mucho cinismo con Mythos, en el sentido de “solo le quitaron las protecciones a un modelo público ya existente”, pero estas cifras cuentan otra historia
    “Se revisaron cuidadosamente 1,752 vulnerabilidades de severidad alta o crítica mediante 6 empresas independientes de investigación de seguridad o, en unos pocos casos, mediante nuestra propia evaluación. De ellas, el 90.6% (1,587) se demostró como verdaderos positivos válidos y el 62.4% (1,094) se confirmó con severidad alta o crítica.”
    Quien haya hecho escaneos de vulnerabilidades con Opus, Codex o modelos open source sabe que tanto la tasa de verdaderos positivos como el volumen de hallazgos representan claramente un cambio de nivel[0]
    La mayoría de los alrededor de 50 socios de Glasswing ya habían probado antes arneses con otros modelos, y en general la reacción fue “wow, esto es diferente”
    Ahora la cuestión es cómo serán el acceso de etapa 2 y etapa 3, y qué familias de sistemas se protegerán primero
    Hay demasiado por hacer: routers, firewalls, SaaS, ERP, controladores industriales, SCADA, gateways VPN zero trust, equipos y redes de telecomunicaciones, incluso dispositivos médicos
    Por eso creo que Mythos seguirá cerrado por un tiempo
    La superficie de ataque que hay que proteger es demasiado amplia, y hay demasiado que clasificar, corregir y desplegar
    Esto también puede favorecer a Anthropic, porque un modelo cerrado no se puede destilar
    Además, hay un efecto de bola de nieve en la mejora del modelo a partir de los datos de descubrimiento, clasificación y corrección
    Muy probablemente ya sea el corpus de datos de ataque curado con más fuerza reunido hasta ahora, y solo va a mejorar
    No me imagino que una empresa china vaya a recibir acceso pronto, o tal vez nunca
    Quizá pronto llegue un mundo en el que CISA obligue auditorías y, si quieres comprar un gateway VPN o un router doméstico que resista a Mythos, tengas que comprar uno fabricado en EE. UU.[1]
    [0] Comparado con el ~30% de herramientas de auditoría generales
    [1] O de un país aliado

    • El corpus de descubrimiento, clasificación y corrección está al alcance de todos los competidores, sean empresas estadounidenses o no
      Me cuesta creer que esto no se pueda replicar
      Ya hay suficiente dato anotado como CVE y parches, y Mythos está haciendo que haya más, así que creo que si haces aprendizaje por refuerzo orientado a este escenario puedes mejorar la detección de vulnerabilidades incluso sin acceso a Mythos
    • No veo por qué no se podría subcontratar a una empresa de seguridad estadounidense que sí tenga acceso a Mythos
    • Me recuerda a la época de GPT-2
      OpenAI restringió por primera vez el acceso al modelo diciendo que “la humanidad aún no estaba lista”, cuando ese modelo apenas escribía poemas y cosas así
      Desde entonces no recuerdo un solo lanzamiento de modelo de OAI/Anthropic que no usara un lenguaje parecido
      Decir que un modelo “se filtró” es marketing, decir que es peligroso es marketing y decir que el mundo no está preparado también es marketing
      Que quienes recibieron acceso digan “wow” también es marketing, para creerlo o no
      Ya puedes obtener los mismos resultados con los 5 a 10 mejores modelos de uso general que existen hoy
      Mythos es la manera en que Anthropic vende una idea nueva después de que las ideas anteriores ya se democratizaron
    • Aunque un modelo cerrado no se pueda destilar desde afuera, sí se puede hacer internamente
      Parece razonable esperar algo grande en Sonnet 4.8
  • Si todavía no estás aplicando análisis estático y linters a tu base de código, primero habría que preguntarse por qué quieres aplicar una herramienta LLM costosa
    Eso no significa que estas herramientas no puedan encontrar vulnerabilidades que las herramientas estáticas no detectan; creo que sí pueden
    Pero ya tenemos capacidad de detectar automáticamente una gran franja de vulnerabilidades comunes, y aun así hemos decidido no hacerlo por razones como el costo
    Si un equipo que ya aplica varias capas de análisis y linting quiere sumar esto encima, estoy totalmente a favor

    • Porque la mayoría de los problemas están en la lógica de negocio, y los analizadores estáticos no capturan eso
    • El análisis estático no te construye un exploit de un clic que funcione de principio a fin
      Incluso estando en FAANG, nuestras herramientas de análisis estático ni siquiera son excelentes para identificar cuántos problemas son realmente alcanzables
      Idealmente deberías usar ambos
      Lo bueno es que un modelo de IA que tenga análisis estático como parte del arnés evalúe cada hallazgo potencial
    • El análisis estático suele mostrar muchos falsos positivos
      Herramientas más inteligentes pueden ayudarte a no desperdiciar tiempo de ingeniería limitado
    • Me encanta que la respuesta más honesta para la mayoría de los desarrolladores haya sido downvoteada e incluso reportada
      La mayoría de quienes hacen esto ahora no usaban herramientas de análisis estático porque las consideraban un extra innecesario
  • Las únicas vulnerabilidades que quiero que arreglen ya son las de los 3,800 repositorios robados de GitHub
    Honestamente, “las vulnerabilidades del software que construye internet” me preocupan menos que “la plataforma que el software que construye internet usa para producir releases”
    Si quienes compraron esos repositorios internos encuentran una forma de meterse en GitHub para cortar releases de software o contaminar GitHub Actions de forma remota, todos vamos a estar en una situación gravísima
    Y no hay que olvidar que entre esos 3,800 repositorios probablemente también esté npmjs.org mismo

  • Hemos estado desarrollando en legal tech, con modelos frontier para consumidores, lo que llamamos “lexploits”, y son absurdamente buenos para encontrar bugs en pipelines integrados de punta a punta
    También son sorprendentemente buenos creando mitigaciones
    Las vulnerabilidades de seguridad importan, pero en el ámbito legal proponemos además el concepto de seguridad del conocimiento, que protege la fidelidad contextual legal del agente
    Los bugs de software parecen mucho más manejables porque los gestiona ingeniería de software, mientras que las “vulnerabilidades” de pipeline que nosotros encontramos no tienen eso
    Aquí escribí un poco sobre una vía en la que los documentos legales no son lo que parecen: https://tritium.legal/blog/noroboto
    Habrá muchas áreas de conocimiento expuestas de esta forma, y preocupa más porque la mayoría tiene poco personal y está gestionada por personas no técnicas
    Ni siquiera hace falta Mythos

  • La frase “A continuación trabajaremos con socios clave adicionales, incluidos los gobiernos de EE. UU. y de países aliados, para ampliar Project Glasswing a más socios” suena a que van a ganar mucho dinero antes de hacer un lanzamiento general
    Buena estrategia

  • Me cuesta creerlo
    Gran parte de lo que encuentra esta herramienta simplemente está mal, y a veces se reporta como verdadero aunque la posibilidad de explotarlo realmente quede anulada por capas superiores o inferiores del código
    También es un tradeoff entre rendimiento y seguridad, y siempre lo ha sido
    Las verificaciones adicionales y otras medidas sí deben realizarse con fines reales de seguridad
    El marketing siempre es excelente, pero la visión color de rosa que tiene mucha gente me parece una especie de fantasía vicaria

    • El texto explica que todas las vulnerabilidades fueron verificadas como realmente explotables de extremo a extremo, y que más de 1,000 se validaron independientemente como críticas
      No son vulnerabilidades inalcanzables
    • Puedes ver exactamente qué se encontró en https://red.anthropic.com/2026/cvd/
    • Más aún cuando este ha sido el modo habitual de OAI/Anthropic durante años
  • “El cuello de botella para corregir este tipo de bugs es la capacidad de clasificar, reportar y diseñar y desplegar parches. Mythos Preview ha hecho que la parte inicial, descubrirlos, sea mucho más simple.”
    Ese siempre ha sido el cuello de botella
    A las herramientas automáticas les encanta marcar vulnerabilidades, pero casi todas son falsos positivos y una persona tiene que clasificarlas y evaluarlas
    Aun así está bien
    Creo que es mejor cerrarlas como falsos positivos tras una revisión cuidadosa que ni siquiera detectarlas
    No me parece correcto llamar cuello de botella a las personas
    Las personas son una parte esencial del proceso, y Mythos será un catalizador dentro de ese proceso

    • Hace 10 años claramente no era cierto que el trabajo humano de corrección fuera el cuello de botella principal para eliminar la mayoría de las vulnerabilidades
      Demostrar la vulnerabilidad era mucho más difícil que resolverla
  • Hoy fue un día bastante divertido
    Hice que subagentes de deepseek-v4-flash generaran parches para obtener root con Dirty Frag en un sistema con AF_ALG desactivado y nscd activado
    El exploit publicado originalmente no funcionaba, pero el parcheado funcionó muy bien
    Sigo creyendo que 100 subagentes con inteligencia razonable pueden lograr el mismo resultado que Mythos
    Algún día espero probar Mythos directamente y estar listo para que esa idea se venga abajo, y asumo que otras personas aquí ya lo habrán usado

    • Puede ser, pero 100 subagentes implica una configuración de 100 dólares por hora, y se habla de que Mythos cuesta 20 mil dólares por encontrar una sola vulnerabilidad
      Así que la pregunta no es “¿un modelo más tonto también puede hacer esto?”, sino cuántas horas de GPU requeriría un modelo más tonto si encontrar un exploit con el razonamiento de Mythos cuesta 5,000 horas de GPU