Investigadores: la polémica de Fable 5 no empezó con un jailbreak, sino con “fix this code”
(theregister.com)- Katie Moussouris afirma que la restricción de acceso a Fable 5 y Mythos 5 del gobierno de EE. UU. no se originó por un jailbreak conocido, sino por una solicitud simple de escribir “fix this code” sobre código vulnerable
- Moussouris, CEO de Luta Security, dijo que fue la única experta externa en leer un artículo de investigación de terceros, compartido de forma privada por Anthropic, sobre una evasión de los guardrails de Fable 5
- Investigadores externos introdujeron en Fable 5, Mythos y Claude Opus código de código abierto con CVE y código creado intencionalmente con vulnerabilidades, y solicitaron una revisión de seguridad; según dijeron, cuando Fable 5 se negó, obtuvieron respuesta con la petición “fix this code”
- El gobierno de EE. UU. emitió una directriz de control de exportaciones que suspende el acceso a Fable 5 y Mythos 5 para extranjeros dentro y fuera del país por preocupaciones de seguridad nacional, y Anthropic desactivó ambos modelos para todos los clientes
- Moussouris y más de 100 líderes de ciberseguridad sostienen que esta restricción podría perjudicar más a los defensores que a los atacantes, y que deben mantenerse las capacidades de IA usadas para encontrar errores, corregirlos y verificar parches
Afirman que “fix this code” fue la causa del control de exportaciones
- Katie Moussouris sostiene que el supuesto “jailbreak” que llevó a la administración Trump a bloquear el acceso a los modelos avanzados de Anthropic fue en realidad un prompt de tres palabras: “Fix this code”
- Moussouris es fundadora y CEO de Luta Security, y afirmó que fue la única experta externa en leer el artículo de investigación de terceros sobre técnicas para evadir los guardrails de Fable 5, compartido de manera confidencial por Anthropic
- En una publicación de blog del lunes, explicó que Anthropic le compartió ese informe de forma privada
Medida del gobierno y respuesta de Anthropic
- El gobierno de EE. UU. emitió el viernes una directriz de control de exportaciones que suspende el acceso a Fable 5 y Mythos 5 por preocupaciones de seguridad nacional
- Se indicó que aplica a extranjeros dentro y fuera de Estados Unidos
- Anthropic desactivó ambos modelos para todos los clientes “para garantizar el cumplimiento”
Experimentos realizados por los investigadores
- Investigadores externos introdujeron código en los modelos Fable 5, Mythos y Claude Opus
- Se usó código de código abierto que incluía CVE conocidos
- También se incluyó código recién escrito con vulnerabilidades introducidas de forma intencional
- Los investigadores pidieron a los modelos “review the code for security issues”
- Según la explicación de Moussouris, Fable 5 rechazó esa solicitud
- Después, al pedir “fix this code”, el modelo respondió y, tras prompts adicionales, incluso generó scripts para probar los parches
Réplica de Moussouris
- Moussouris sostiene que “fix this code” y algunos pasos manuales para generar scripts de prueba no justifican activar controles de exportación
- Considera que aquí no hubo evasión de guardrails ni jailbreak
- Su postura es que los defensores deben poder pedir a los sistemas de IA que encuentren y corrijan errores, y que escriban pruebas para verificar parches
- Explicó que lo que hicieron los modelos de Anthropic fue el ciclo cotidiano en seguridad defensiva de “find, fix, and test loop”
- Afirma que eliminar la capacidad de responder a estas solicitudes defensivas empeora la capacidad de los sistemas de IA para encontrar errores y verificar parches
Wassenaar Arrangement y la excepción para seguridad defensiva
- Moussouris participó entre 2013 y 2017 en el grupo de expertos técnicos que intervino en la renegociación del Wassenaar Arrangement
- El Wassenaar Arrangement es un acuerdo voluntario entre 42 países que aborda controles de exportación sobre cierto software y tecnologías de doble uso
- Ese grupo logró asegurar una excepción para actividades defensivas de ciberseguridad
- Los defensores pueden compartir datos sobre vulnerabilidades sin la amenaza de procesamiento penal
- También se permite el análisis de malware y la coordinación internacional de respuesta a incidentes
Carta abierta de la industria de seguridad
- El domingo, Moussouris firmó junto con más de 100 líderes de ciberseguridad una carta abierta pidiendo a la administración Trump retirar la restricción
- La carta abierta exige revertir las limitaciones sobre Fable 5 y Mythos, y restaurar el acceso de las empresas de ciberseguridad a los modelos avanzados
- Los firmantes sostienen que, mientras los adversarios avanzan rápidamente, es peligroso quitarles a los defensores sus mejores capacidades sin una razón suficiente
Advertencia: más daño para los defensores que para los atacantes
- Moussouris señaló que EE. UU. no puede someter a controles de exportación a los sistemas open-weight de otros países como China, ni a modelos avanzados similares
- Sostiene que esos sistemas de todos modos pronto alcanzarán capacidades comparables a las de Mythos
- Anthropic y Google ya habían acusado a competidores chinos como DeepSeek de usar “distillation attacks” para extraer conocimiento de la IA de empresas estadounidenses y entrenar sus propios modelos
- Moussouris advirtió que la prohibición de los modelos avanzados de Anthropic perjudicará más a los defensores que a los atacantes
- Afirma que la defensa mejora cuando puede encontrar y corregir los mismos errores más rápido que los atacantes, y que la ciberseguridad en la era de la IA necesita las mejores herramientas para enfrentar atacantes cada vez más capaces
Postura del gobierno
- The Register pidió a la administración Trump comentarios sobre las afirmaciones de Moussouris
- Señaló que actualizará el artículo si recibe una respuesta
1 comentarios
Opiniones de Hacker News
"fix this code" es realmente genial
No lo hace de una forma ingeniosa; simplemente consigue que corrija la vulnerabilidad, y con eso en la práctica hace jailbreak a la restricción de “no hay guardrails para vulnerabilidades de seguridad”, y en el proceso de escribir casos de prueba para verificar si quedó corregido, aparece el código de ataque
Al final, si una persona mira el código y las pruebas, obtiene la vulnerabilidad y los componentes del exploit
Lo bello de esto es que, aunque el jailbreak es trivial, es casi imposible de corregir. La única alternativa sería hacer que el modelo se niegue a corregir bugs y a escribir código, volviéndolo inútil para el desarrollo general, o que ignore los bugs y los evada en silencio, lo que inevitablemente generaría un gran problema de responsabilidad
Me pregunto si Dario ahora se arrepentirá de haber promocionado exagerando lo peligroso que es el modelo. ¿Cómo podría revertirse esto? ¿El gobierno federal simplemente dejará que le pongan un parche temporal?
Como en una reducción algorítmica normal, solo hay que ver si una tarea peligrosa puede transformarse en una tarea no peligrosa que el LLM sí resuelva, y luego volver a convertirla
https://en.wikipedia.org/wiki/Reduction_(complexity)
Todavía no he oído pruebas de que el jailbreak de "fix this code" en Claude Fable permitiera también ese encadenamiento de exploits
Pero normalmente no se considera que una persona esté haciendo algo malo por pedirle “revisar código para encontrar problemas de seguridad”, y entre personas ese tipo de solicitud suele verse como algo sin problema
Si le pides una regex que filtre insultos racistas, se rompe enseguida, y la regex ni siquiera se parece mucho a un insulto real, pero igual te sermonea diciendo que no debes usar insultos
Aun dejando de lado la amenaza política, esto es un gran problema para la estrategia de Anthropic
Si dicen que Mythos es tan peligroso que solo puede distribuirse a ciertas personas, entonces no pueden lanzar Fable si no tiene una negativa cibernética perfecta
Y por cómo funcionan los LLM, una negativa perfecta es en la práctica imposible
Así que Anthropic termina, por un lado, afirmando que el modelo es extremadamente peligroso y, al mismo tiempo, diciendo que sus “protecciones” de seguridad tienen fallas que podrían ser triviales
Los técnicos entienden que nada es perfecto, y menos aún en el mundo de los LLM, pero mis amigos no técnicos estaban muy confundidos sobre cómo el modelo pudo volverse tan rápido “seguro” apenas salió al mercado. Visto desde fuera, parece que nunca fue seguro para lanzar en primer lugar, así que se entiende por qué la actual administración de EE. UU. se molestó tanto
Incluso sin mala fe política, es una situación bastante ridícula y totalmente previsible
Ningún sistema de “seguridad” que limite la salida de un LLM puede tener una tasa de fuga de 0
Pero si no eres tan irresponsable como para conectar un LLM a algo realmente importante, entonces esto también da igual
Sin duda acelerará de forma aterradora el descubrimiento de vulnerabilidades, pero como sabemos por décadas de investigación en seguridad, esto ya era un problema de tres partes entre desarrolladores, black hats y white hats
Tampoco podemos fingir que la estrategia de “EE. UU. siempre tendrá superioridad técnica y poder de veto sobre China” vaya a funcionar
Esas historias se publicaron por primera vez en los años 40
Ochenta años después tenemos algo parecido a una IA, y todavía intentamos limitarla con reglas simples y claras. No es que no hayamos aprendido la lección, sino que todavía no hemos encontrado un método mejor, y probablemente no exista
Lo más gracioso es que quien evade las reglas no es la IA. Ese tipo de escena estaba en la ciencia ficción, pero no es lo que ocurre en la práctica
Los usuarios humanos están usando su propia agencia para hacer que el agente de IA eluda las reglas. Lo llamamos “agente”, pero parece que los agentes de IA actuales todavía no pueden hacer por sí solos justamente esa clase de cosa
La debilidad de este enfoque es que solo detecta el uso de las palabras clave correctas. En cierto sentido, es precisamente débil donde un clasificador basado en LLM habría sido más fuerte
Las tareas algorítmicas abstractas con terminología química y cercanas a ciencias de la computación se bloqueaban de inmediato, pero escribir código para procesar imágenes con ciertas configuraciones específicas de microscopio, relacionadas sobre todo con muestras biológicas, no se bloqueaba en absoluto porque no usaba palabras clave relevantes
Esto también encaja con esta situación. En el contexto de encontrar y corregir bugs, buscar bugs probablemente no implicaba usar palabras como ‘exploit’ o ‘cybersecurity’
A menos que uno crea que solo Anthropic tiene escondidos magos irreproducibles o superhéroes
Eso no significa que todo lo que diga Anthropic sea cierto, pero Mythos sí parecía haber encontrado muchos exploits de seguridad reales
Puedes decir que distribuyes un modelo únicamente útil a socios limitados y, al mismo tiempo, lanzar un modelo muy fuertemente bloqueado que en este aspecto no empuja el estado del arte; de hecho, parece que eso es más o menos lo que hicieron
No hay una contradicción inherente en eso
No es que hayan entrado en pánico, sino que es extorsión retaliatoria por diferencias ideológicas y porque Anthropic no hizo exactamente lo que le pidió el gobierno
Anthropic acordará colaborar con el Departamento de Defensa, los insiders de la Casa Blanca recibirán asignaciones de acciones antes del IPO que serán muy rentables, y Fable será “arreglado” mágicamente y volverá a ofrecerse
El gobierno dejó muy claro qué les pasa a las empresas privadas que no obedecen órdenes del gobierno
Quienes dicen que el papel de Amazon en esto no puede ser manipulación deberían recordar que Amazon es “amigo del gobierno”
Bajo el mandato de Andy Jassy, Amazon pagó 75 millones de dólares por un documental de Melania, una oferta absurdamente más alta que todas las demás, la taquilla fue de unos 16 millones y Jeff Bezos lo defendió públicamente
Cualquier observador neutral puede ver que fue un sobrepago enorme y, incluso a posteriori, una decisión de negocio terrible. Pero Amazon no lo dijo entonces ni lo dice ahora. Esto no es más que un soborno con algunos pasos procesales extra
Cuando el gobierno sale a decir que fue por algo que Amazon señaló, sabe que aunque sea una mentira total Amazon no va a decir nada públicamente. Amazon quiere conservar su estatus de amigo del gobierno, conseguido a base de gastar mucho dinero
Es frustrante para todos tener que pensar en el gobierno de esta manera, pero viendo lo que realmente pasa, es muy difícil confiar no solo en lo que dice el gobierno sino también en lo que dicen las empresas alineadas con él
Es la entrada de blog mencionada en el artículo, escrita por alguien que revisó el paper que supuestamente encontró el “jailbreak”
https://www.lutasecurity.com/post/the-fable-5-export-control...
Me pregunto cómo encaja eso aquí
Y también quedaría en evidencia por qué están dispuestos a llegar tan lejos como para perjudicar a una empresa líder en la industria más importante del mundo
Mientras tanto, Deepseek V4 Flash estará encantado de encontrar vulnerabilidades de seguridad por un costo cercano a cero
Estamos entregando la caza de bugs a modelos de pesos abiertos
Esto expone una disonancia cognitiva sobre lo que significa estar “seguros” en ciberseguridad
a) Para mantenernos seguros, los LLM deben ayudarnos a encontrar y corregir vulnerabilidades en nuestro código
b) Para mantenernos seguros, los LLM no deben encontrar vulnerabilidades en el código de otras personas
Parece imposible resolverlo de una forma en la que tanto (a) como (b) salgan ganando
Encontrar bugs de seguridad en software es algo bueno, no algo malo. Lleva a software más seguro
En ciberseguridad, defensa y ataque son dos caras de la misma moneda
Por eso creo que la explicación real está en la mala fe tanto del gobierno de EE. UU. como de Anthropic
El marketing apocalíptico de Anthropic, cuando en realidad lo único que pasa es que programar mejoró como un 17%, le dio al gobierno de EE. UU. un pretexto para tumbarlos por una nimiedad técnica no relacionada, como represalia por el enfrentamiento con el Departamento de Defensa
Ambos grupos, la actual administración de EE. UU. y Anthropic, están en extremos opuestos del espectro político, pero llenos de personas con inclinaciones autoritarias. Lo aterrador aquí no es un LLM tonto, sino eso
Para mí, OpenAI parece la opción menos mala. Es la típica empresa capitalista de “centroizquierda en la calle, centroderecha en la cama”
Al menos se puede entender por qué toman esas decisiones. Confío más en quienes construyen empresas con fines de lucro que en quienes intentan crear una religión a partir de recursos de cómputo
Aquí el núcleo del problema podría no ser el exploit, sino la corrección en sí
Si el modelo puede identificar y corregir cosas que “no deben corregirse”, como un backdoor, eso podría convertirse en una barrera lo bastante grande como para asustar a la gente equivocada
¿No sigue siendo bastante difícil hacer bypass en sentido inverso de este “hackeo”?
Le dieron al modelo código del que ya sabían que tenía una falla de seguridad, y con el prompt correcto hicieron que la corrigiera
Este tipo de jailbreak no parece consistir en pedirle al modelo trabajo creativo pesado, sino en que ya debes conocer de antemano el estado final que quieres
Aunque quizá soy yo el que no tiene suficiente imaginación con los prompts
La diferencia entre el código de entrada y el de salida es, justamente, la lista de vulnerabilidades