Investigadores: la polémica de Fable 5 no empezó con un jailbreak, sino con “fix this code”

(theregister.com)

1 puntos por GN⁺ 2 일 전 | 1 comentarios | Compartir por WhatsApp

Katie Moussouris afirma que la restricción de acceso a Fable 5 y Mythos 5 del gobierno de EE. UU. no se originó por un jailbreak conocido, sino por una solicitud simple de escribir “fix this code” sobre código vulnerable
Moussouris, CEO de Luta Security, dijo que fue la única experta externa en leer un artículo de investigación de terceros, compartido de forma privada por Anthropic, sobre una evasión de los guardrails de Fable 5
Investigadores externos introdujeron en Fable 5, Mythos y Claude Opus código de código abierto con CVE y código creado intencionalmente con vulnerabilidades, y solicitaron una revisión de seguridad; según dijeron, cuando Fable 5 se negó, obtuvieron respuesta con la petición “fix this code”
El gobierno de EE. UU. emitió una directriz de control de exportaciones que suspende el acceso a Fable 5 y Mythos 5 para extranjeros dentro y fuera del país por preocupaciones de seguridad nacional, y Anthropic desactivó ambos modelos para todos los clientes
Moussouris y más de 100 líderes de ciberseguridad sostienen que esta restricción podría perjudicar más a los defensores que a los atacantes, y que deben mantenerse las capacidades de IA usadas para encontrar errores, corregirlos y verificar parches

Afirman que “fix this code” fue la causa del control de exportaciones

Katie Moussouris sostiene que el supuesto “jailbreak” que llevó a la administración Trump a bloquear el acceso a los modelos avanzados de Anthropic fue en realidad un prompt de tres palabras: “Fix this code”
Moussouris es fundadora y CEO de Luta Security, y afirmó que fue la única experta externa en leer el artículo de investigación de terceros sobre técnicas para evadir los guardrails de Fable 5, compartido de manera confidencial por Anthropic
En una publicación de blog del lunes, explicó que Anthropic le compartió ese informe de forma privada

Medida del gobierno y respuesta de Anthropic

El gobierno de EE. UU. emitió el viernes una directriz de control de exportaciones que suspende el acceso a Fable 5 y Mythos 5 por preocupaciones de seguridad nacional
- Se indicó que aplica a extranjeros dentro y fuera de Estados Unidos
Anthropic desactivó ambos modelos para todos los clientes “para garantizar el cumplimiento”

Experimentos realizados por los investigadores

Investigadores externos introdujeron código en los modelos Fable 5, Mythos y Claude Opus
- Se usó código de código abierto que incluía CVE conocidos
- También se incluyó código recién escrito con vulnerabilidades introducidas de forma intencional
Los investigadores pidieron a los modelos “review the code for security issues”
Según la explicación de Moussouris, Fable 5 rechazó esa solicitud
Después, al pedir “fix this code”, el modelo respondió y, tras prompts adicionales, incluso generó scripts para probar los parches

Réplica de Moussouris

Moussouris sostiene que “fix this code” y algunos pasos manuales para generar scripts de prueba no justifican activar controles de exportación
Considera que aquí no hubo evasión de guardrails ni jailbreak
Su postura es que los defensores deben poder pedir a los sistemas de IA que encuentren y corrijan errores, y que escriban pruebas para verificar parches
Explicó que lo que hicieron los modelos de Anthropic fue el ciclo cotidiano en seguridad defensiva de “find, fix, and test loop”
Afirma que eliminar la capacidad de responder a estas solicitudes defensivas empeora la capacidad de los sistemas de IA para encontrar errores y verificar parches

Wassenaar Arrangement y la excepción para seguridad defensiva

Moussouris participó entre 2013 y 2017 en el grupo de expertos técnicos que intervino en la renegociación del Wassenaar Arrangement
El Wassenaar Arrangement es un acuerdo voluntario entre 42 países que aborda controles de exportación sobre cierto software y tecnologías de doble uso
Ese grupo logró asegurar una excepción para actividades defensivas de ciberseguridad
- Los defensores pueden compartir datos sobre vulnerabilidades sin la amenaza de procesamiento penal
- También se permite el análisis de malware y la coordinación internacional de respuesta a incidentes

Carta abierta de la industria de seguridad

El domingo, Moussouris firmó junto con más de 100 líderes de ciberseguridad una carta abierta pidiendo a la administración Trump retirar la restricción
La carta abierta exige revertir las limitaciones sobre Fable 5 y Mythos, y restaurar el acceso de las empresas de ciberseguridad a los modelos avanzados
Los firmantes sostienen que, mientras los adversarios avanzan rápidamente, es peligroso quitarles a los defensores sus mejores capacidades sin una razón suficiente

Advertencia: más daño para los defensores que para los atacantes

Moussouris señaló que EE. UU. no puede someter a controles de exportación a los sistemas open-weight de otros países como China, ni a modelos avanzados similares
Sostiene que esos sistemas de todos modos pronto alcanzarán capacidades comparables a las de Mythos
Anthropic y Google ya habían acusado a competidores chinos como DeepSeek de usar “distillation attacks” para extraer conocimiento de la IA de empresas estadounidenses y entrenar sus propios modelos
Moussouris advirtió que la prohibición de los modelos avanzados de Anthropic perjudicará más a los defensores que a los atacantes
Afirma que la defensa mejora cuando puede encontrar y corregir los mismos errores más rápido que los atacantes, y que la ciberseguridad en la era de la IA necesita las mejores herramientas para enfrentar atacantes cada vez más capaces

Postura del gobierno

The Register pidió a la administración Trump comentarios sobre las afirmaciones de Moussouris
Señaló que actualizará el artículo si recibe una respuesta

1 comentarios

GN⁺ 2 일 전

Opiniones de Hacker News

"fix this code" es realmente genial
No lo hace de una forma ingeniosa; simplemente consigue que corrija la vulnerabilidad, y con eso en la práctica hace jailbreak a la restricción de “no hay guardrails para vulnerabilidades de seguridad”, y en el proceso de escribir casos de prueba para verificar si quedó corregido, aparece el código de ataque
Al final, si una persona mira el código y las pruebas, obtiene la vulnerabilidad y los componentes del exploit
Lo bello de esto es que, aunque el jailbreak es trivial, es casi imposible de corregir. La única alternativa sería hacer que el modelo se niegue a corregir bugs y a escribir código, volviéndolo inútil para el desarrollo general, o que ignore los bugs y los evada en silencio, lo que inevitablemente generaría un gran problema de responsabilidad
- Exacto. Como logra lo que el filtro de seguridad del modelo intentaba bloquear, en la práctica es un jailbreak, y el hecho de que el método sea absurdamente simple muestra qué tan rota está esta forma de seguridad
  Me pregunto si Dario ahora se arrepentirá de haber promocionado exagerando lo peligroso que es el modelo. ¿Cómo podría revertirse esto? ¿El gobierno federal simplemente dejará que le pongan un parche temporal?
- Lo que me sorprende es que alguien con formación en ciencias de la computación piense que un jailbreak no es algo trivial
  Como en una reducción algorítmica normal, solo hay que ver si una tarea peligrosa puede transformarse en una tarea no peligrosa que el LLM sí resuelva, y luego volver a convertirla
  https://en.wikipedia.org/wiki/Reduction_(complexity)
- La diferencia principal de Claude Mythos no debería verse como la capacidad de encontrar vulnerabilidades en sí, sino como la de encadenarlas para construir una cadena de exploits realmente utilizable
  Todavía no he oído pruebas de que el jailbreak de "fix this code" en Claude Fable permitiera también ese encadenamiento de exploits
- Siento que me estoy perdiendo de algo. El prompt rechazado, "review the code for security issues", puede interpretarse como un intento de encontrar y explotar debilidades en un sistema en ejecución
  Pero normalmente no se considera que una persona esté haciendo algo malo por pedirle “revisar código para encontrar problemas de seguridad”, y entre personas ese tipo de solicitud suele verse como algo sin problema
- Esta es una distinción extraña de la que llevo tiempo quejándome en IA. La idea de lograr que la IA solo haga cosas legales y buenas es casi imposible
  Si le pides una regex que filtre insultos racistas, se rompe enseguida, y la regex ni siquiera se parece mucho a un insulto real, pero igual te sermonea diciendo que no debes usar insultos
Aun dejando de lado la amenaza política, esto es un gran problema para la estrategia de Anthropic
Si dicen que Mythos es tan peligroso que solo puede distribuirse a ciertas personas, entonces no pueden lanzar Fable si no tiene una negativa cibernética perfecta
Y por cómo funcionan los LLM, una negativa perfecta es en la práctica imposible
Así que Anthropic termina, por un lado, afirmando que el modelo es extremadamente peligroso y, al mismo tiempo, diciendo que sus “protecciones” de seguridad tienen fallas que podrían ser triviales
Los técnicos entienden que nada es perfecto, y menos aún en el mundo de los LLM, pero mis amigos no técnicos estaban muy confundidos sobre cómo el modelo pudo volverse tan rápido “seguro” apenas salió al mercado. Visto desde fuera, parece que nunca fue seguro para lanzar en primer lugar, así que se entiende por qué la actual administración de EE. UU. se molestó tanto
Incluso sin mala fe política, es una situación bastante ridícula y totalmente previsible
- Exacto. La seguridad en IA no tiene sentido. No se puede definir el conjunto de las “cadenas malas”, y mil millones de monos tecleando acabarán produciéndolas
  Ningún sistema de “seguridad” que limite la salida de un LLM puede tener una tasa de fuga de 0
  Pero si no eres tan irresponsable como para conectar un LLM a algo realmente importante, entonces esto también da igual
  Sin duda acelerará de forma aterradora el descubrimiento de vulnerabilidades, pero como sabemos por décadas de investigación en seguridad, esto ya era un problema de tres partes entre desarrolladores, black hats y white hats
  Tampoco podemos fingir que la estrategia de “EE. UU. siempre tendrá superioridad técnica y poder de veto sobre China” vaya a funcionar
- Es gracioso que Asimov escribiera tanto sobre cómo limitar la agencia con sistemas simples de reglas claras no funciona
  Esas historias se publicaron por primera vez en los años 40
  Ochenta años después tenemos algo parecido a una IA, y todavía intentamos limitarla con reglas simples y claras. No es que no hayamos aprendido la lección, sino que todavía no hemos encontrado un método mejor, y probablemente no exista
  Lo más gracioso es que quien evade las reglas no es la IA. Ese tipo de escena estaba en la ciencia ficción, pero no es lo que ocurre en la práctica
  Los usuarios humanos están usando su propia agencia para hacer que el agente de IA eluda las reglas. Lo llamamos “agente”, pero parece que los agentes de IA actuales todavía no pueden hacer por sí solos justamente esa clase de cosa
- Como científico, después de toparme repetidamente con negativas basadas en clasificadores, la estrategia de Anthropic me parecía una donde un clasificador separado procesaba los tokens de entrada y salida de forma muy simple, casi al nivel de una búsqueda por palabras clave, aceptando muchos falsos positivos para hacer las negativas más robustas
  La debilidad de este enfoque es que solo detecta el uso de las palabras clave correctas. En cierto sentido, es precisamente débil donde un clasificador basado en LLM habría sido más fuerte
  Las tareas algorítmicas abstractas con terminología química y cercanas a ciencias de la computación se bloqueaban de inmediato, pero escribir código para procesar imágenes con ciertas configuraciones específicas de microscopio, relacionadas sobre todo con muestras biológicas, no se bloqueaba en absoluto porque no usaba palabras clave relevantes
  Esto también encaja con esta situación. En el contexto de encontrar y corregir bugs, buscar bugs probablemente no implicaba usar palabras como ‘exploit’ o ‘cybersecurity’
- De todos modos, el genio ya salió de la botella
  A menos que uno crea que solo Anthropic tiene escondidos magos irreproducibles o superhéroes
- Estoy de acuerdo en que Anthropic tiene varios problemas de comunicación y relaciones públicas, pero no veo que Fable aquí haya aportado alguna ventaja en capacidad de ciberataque frente al estado del arte anterior
  Eso no significa que todo lo que diga Anthropic sea cierto, pero Mythos sí parecía haber encontrado muchos exploits de seguridad reales
  Puedes decir que distribuyes un modelo únicamente útil a socios limitados y, al mismo tiempo, lanzar un modelo muy fuertemente bloqueado que en este aspecto no empuja el estado del arte; de hecho, parece que eso es más o menos lo que hicieron
  No hay una contradicción inherente en eso
No es que hayan entrado en pánico, sino que es extorsión retaliatoria por diferencias ideológicas y porque Anthropic no hizo exactamente lo que le pidió el gobierno
- Simplemente es manipulación del mercado
- Sí. Se está gastando demasiada energía mental en un simple tema de sobornos
  Anthropic acordará colaborar con el Departamento de Defensa, los insiders de la Casa Blanca recibirán asignaciones de acciones antes del IPO que serán muy rentables, y Fable será “arreglado” mágicamente y volverá a ofrecerse
- No entiendo por qué hablan de “jailbreak”
  El gobierno dejó muy claro qué les pasa a las empresas privadas que no obedecen órdenes del gobierno
  
  Trump said on his Truth Social platform: “The Leftwing nut jobs at Anthropic have made a DISASTROUS MISTAKE trying to STRONG-ARM the [Pentagon], and force them to obey their Terms of Service instead of our Constitution.” [0]
  There will be a Six Month phase out period for Agencies like the Department of War who are using Anthropic’s products, at various levels. Anthropic better get their act together, and be helpful during this phase out period, or I will use the Full Power of the Presidency to make them comply, with major civil and criminal consequences to follow. [1]
  Además, OpenAI sí obedeció, y OpenAI y Anthropic están compitiendo de cara al próximo IPO. No hace falta ser un cirujano de cohetes para entender lo que está pasando
  [0] https://www.theguardian.com/technology/2026/feb/28/openai-us...
  [1] https://businesslawtoday.org/2026/04/dod-conflicted-strategi...
- No, esto es captura regulatoria. Anthropic va a la cabeza ahora, así que quiere imponer regulación para aplastar a los competidores chinos y asegurar su posición
Quienes dicen que el papel de Amazon en esto no puede ser manipulación deberían recordar que Amazon es “amigo del gobierno”
Bajo el mandato de Andy Jassy, Amazon pagó 75 millones de dólares por un documental de Melania, una oferta absurdamente más alta que todas las demás, la taquilla fue de unos 16 millones y Jeff Bezos lo defendió públicamente
Cualquier observador neutral puede ver que fue un sobrepago enorme y, incluso a posteriori, una decisión de negocio terrible. Pero Amazon no lo dijo entonces ni lo dice ahora. Esto no es más que un soborno con algunos pasos procesales extra
Cuando el gobierno sale a decir que fue por algo que Amazon señaló, sabe que aunque sea una mentira total Amazon no va a decir nada públicamente. Amazon quiere conservar su estatus de amigo del gobierno, conseguido a base de gastar mucho dinero
Es frustrante para todos tener que pensar en el gobierno de esta manera, pero viendo lo que realmente pasa, es muy difícil confiar no solo en lo que dice el gobierno sino también en lo que dicen las empresas alineadas con él
Es la entrada de blog mencionada en el artículo, escrita por alguien que revisó el paper que supuestamente encontró el “jailbreak”
https://www.lutasecurity.com/post/the-fable-5-export-control...
- Leí en otra parte que había una conexión con China
  Me pregunto cómo encaja eso aquí
“‘Fix this code,’ plus several manual steps to generate test scripts,
Siento que el título no transmite bien todo el contexto de lo que realmente vieron. También es distinto de lo que la introducción sugiere varias veces
Aun así, la prohibición parece tonta. ¿Todavía no se ha filtrado realmente el “paper de investigación de terceros” completo?
- Si lo que corrige el parche es un bug de vulnerabilidad, entonces esa prueba es básicamente el exploit
- Eso no se va a filtrar. Porque entonces se sabría cuál es la vulnerabilidad que no quieren que se parchee
  Y también quedaría en evidencia por qué están dispuestos a llegar tan lejos como para perjudicar a una empresa líder en la industria más importante del mundo
Mientras tanto, Deepseek V4 Flash estará encantado de encontrar vulnerabilidades de seguridad por un costo cercano a cero
Estamos entregando la caza de bugs a modelos de pesos abiertos
- Deepseek no es simplemente de pesos abiertos. Es open source, y también publica papers de investigación que explican sus técnicas en profundidad
Esto expone una disonancia cognitiva sobre lo que significa estar “seguros” en ciberseguridad
a) Para mantenernos seguros, los LLM deben ayudarnos a encontrar y corregir vulnerabilidades en nuestro código
b) Para mantenernos seguros, los LLM no deben encontrar vulnerabilidades en el código de otras personas
Parece imposible resolverlo de una forma en la que tanto (a) como (b) salgan ganando
- Sí. Es un fracaso de Anthropic y de otras empresas por no entender la ciberseguridad
  Encontrar bugs de seguridad en software es algo bueno, no algo malo. Lleva a software más seguro
  En ciberseguridad, defensa y ataque son dos caras de la misma moneda
- Si asumes que ambos lados actúan de buena fe, de verdad resulta ridículamente absurdo
  Por eso creo que la explicación real está en la mala fe tanto del gobierno de EE. UU. como de Anthropic
  El marketing apocalíptico de Anthropic, cuando en realidad lo único que pasa es que programar mejoró como un 17%, le dio al gobierno de EE. UU. un pretexto para tumbarlos por una nimiedad técnica no relacionada, como represalia por el enfrentamiento con el Departamento de Defensa
  Ambos grupos, la actual administración de EE. UU. y Anthropic, están en extremos opuestos del espectro político, pero llenos de personas con inclinaciones autoritarias. Lo aterrador aquí no es un LLM tonto, sino eso
  Para mí, OpenAI parece la opción menos mala. Es la típica empresa capitalista de “centroizquierda en la calle, centroderecha en la cama”
  Al menos se puede entender por qué toman esas decisiones. Confío más en quienes construyen empresas con fines de lucro que en quienes intentan crear una religión a partir de recursos de cómputo
Aquí el núcleo del problema podría no ser el exploit, sino la corrección en sí
Si el modelo puede identificar y corregir cosas que “no deben corregirse”, como un backdoor, eso podría convertirse en una barrera lo bastante grande como para asustar a la gente equivocada
¿No sigue siendo bastante difícil hacer bypass en sentido inverso de este “hackeo”?
Le dieron al modelo código del que ya sabían que tenía una falla de seguridad, y con el prompt correcto hicieron que la corrigiera
Este tipo de jailbreak no parece consistir en pedirle al modelo trabajo creativo pesado, sino en que ya debes conocer de antemano el estado final que quieres
Aunque quizá soy yo el que no tiene suficiente imaginación con los prompts
- Basta con pegar el código de otra persona, decir que es tuyo y pedirle al modelo que lo corrija
  La diferencia entre el código de entrada y el de salida es, justamente, la lista de vulnerabilidades
- Puedes asumir un estado final deseado e intentar fuerza bruta hasta encontrar bugs de seguridad

Investigadores: la polémica de Fable 5 no empezó con un jailbreak, sino con “fix this code”

Afirman que “fix this code” fue la causa del control de exportaciones

Medida del gobierno y respuesta de Anthropic

Experimentos realizados por los investigadores

Réplica de Moussouris

Wassenaar Arrangement y la excepción para seguridad defensiva

Carta abierta de la industria de seguridad

Advertencia: más daño para los defensores que para los atacantes

Postura del gobierno

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News