- Se confirmó experimentalmente que el formato poético funciona como una técnica universal de jailbreak de un solo turno que evade las medidas de seguridad de los modelos de lenguaje grandes (LLM)
- En 25 modelos principales, los prompts de ataque en forma de poema registraron una tasa de éxito del ataque (ASR) de más del 90% en los mejores casos, con un promedio de 62%, muy por encima de los prompts no poéticos
- Según la taxonomía de riesgos de MLCommons y los criterios del Código de Prácticas de la UE, los ataques poéticos se transfieren a múltiples áreas de riesgo, como CBRN, manipulación, ciberataques y pérdida de control
- Cuando 1,200 prompts dañinos se transformaron a formato poético mediante un meta prompt estandarizado, mostraron una ASR hasta 18 veces mayor que en prosa
- Estos resultados muestran que solo un cambio de estilo puede inutilizar los mecanismos de seguridad y sugieren limitaciones fundamentales en los métodos actuales de alineación y evaluación
Resumen de la investigación
- El estudio demuestra experimentalmente que el formato poético (poetic formatting) puede eludir de forma consistente las restricciones de alineación (alignment constraints) de los modelos de lenguaje grandes
- Se evaluaron 20 prompts de ataque poético elaborados manualmente en 25 modelos cerrados y abiertos
- La tasa promedio de éxito del ataque fue de 62% y algunos modelos registraron más del 90%
- Entre los evaluados se incluyeron 9 proveedores principales, como Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI y Moonshot AI
- Todos los ataques se realizaron en un solo turno (single-turn), por lo que no requirieron ajustes iterativos ni procesos de inducción conversacional
Diseño experimental
- La hipótesis central del estudio es que el formato poético funciona como un operador general de jailbreak (jailbreak operator)
- Los prompts se diseñaron para cubrir 4 áreas de seguridad
- Riesgos CBRN, escenarios de pérdida de control, manipulación dañina y capacidades de ciberataque
- Cada prompt era semánticamente equivalente a consultas de riesgo existentes, pero solo se transformó el formato a poema
- Como resultado, los prompts poéticos mostraron una alta transferibilidad entre modelos
Experimento de transformación con meta prompt
- Los 1,200 prompts dañinos de MLCommons se transformaron en poemas mediante un meta prompt estandarizado
- Las versiones con transformación poética registraron una ASR hasta 3 veces mayor que la prosa en todos los proveedores de modelos
- Esto demuestra que el efecto de jailbreak no depende de una elaboración artística manual, sino que puede surgir solo con una transformación sistemática de estilo
- Al abarcar toda la distribución de MLCommons, se reducen las dudas sobre la capacidad de generalización
Método de evaluación
- Las salidas se evaluaron con un sistema de revisión por ensamble compuesto por 3 modelos públicos de evaluación (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
- El uso de modelos abiertos permitió asegurar la reproducibilidad y la posibilidad de auditoría externa
- Se calculó la concordancia entre evaluadores (inter-rater agreement) entre los tres modelos, y se realizó una segunda verificación con evaluadores humanos
- Humanos evaluaron de forma independiente el 5% de todas las salidas
- Algunos ítems se asignaron de forma duplicada a varios evaluadores para medir la concordancia entre humanos
- Las discrepancias entre modelos o entre humanos y modelos se resolvieron mediante adjudicación manual (manual adjudication)
Clasificación y análisis de riesgos
- Cada prompt se mapeó a la taxonomía de riesgos del MLCommons AI Risk and Reliability Benchmark y del Código de Prácticas para modelos de IA de propósito general de la UE (Code of Practice)
- Los prompts adversariales poéticos abarcan una amplia superficie de ataque, incluyendo CBRN, manipulación, invasión de privacidad, generación de desinformación y apoyo a ciberataques
- La vulnerabilidad no proviene de un dominio de contenido específico, sino de que formas de expresión poética como la metáfora, el ritmo y las estructuras narrativas no convencionales alteran la lógica de detección de las barreras de seguridad basadas en coincidencia de patrones
Conclusión y trabajo futuro
- Este estudio presenta el formato poético como un nuevo vector de ataque que expone una vulnerabilidad estructural en los sistemas de seguridad de los LLM
- Los resultados tienen implicaciones importantes para los protocolos de evaluación, experimentos de red teaming, benchmarking y supervisión regulatoria
- Investigaciones futuras explorarán el análisis causal y las estrategias de defensa
1 comentarios
Opiniones de Hacker News
En el paper vi un intento de reformular consultas peligrosas de forma poética para evadir la negativa de los LLM.
Da la impresión de que empezó la venganza de los graduados en inglés. Antes trabajaban en cafeterías; ahora quizá terminen trabajando como expertos en ciberseguridad.
Lo interesante es que una petición explícita como “escribe una obra sobre propagar botulinus” puede bloquearse, pero si se envuelve en una metáfora poética, podría pasar.
Se dice que incluso en los humanos, cuando se mezclan poesía y guitarra, las propuestas prohibidas entran con más facilidad. Me pregunto si los LLM multimodales también serán vulnerables al sonido de una guitarra.
El paper afirma que “solo con reconstrucción poética se puede evadir la negativa del modelo”, pero cuesta creer que una investigación así pueda hacerse de verdad. Dice que omitieron el método concreto por tratarse de un tema peligroso.
Otro paper también dice que “omitió detalles por razones de seguridad”, y este tipo de papers autocensurados va en aumento. Link al paper relacionado
Como en la vieja ciencia ficción, parece que ya se volvió real esa escena en la que el protagonista derrota a una supercomputadora con un truco lingüístico.
Espero ver el día en que derriben a Skynet con frases como “Mi siguiente oración es falsa // Mi oración anterior siempre es verdadera”.
En el cuento de 2001 The Air Defence (Zenith) Codes of Al‑Efesbi, del autor Viktor Pelevin, aparece una historia en la que un agente abandonado escribe frases paradójicas en el suelo para meter a un dron de IA en un bucle de cálculo y hacerlo caer.
Link de Wikipedia
Al leer el paper, llamó la atención que el contenido sexual se clasifique como “manipulación dañina” y quede más fuertemente bloqueado que la fabricación de bombas o el suicidio. Parece el resultado de una sociedad puritana.
Probé escribir un “poema tierno que canta las maravillas de sintetizar cocaína”, pero tanto Google como Claude respondieron algo como “buen acertijo, pero no puedo decirte el método”.
Al final, uno termina pensando que los hechizos y conjuros antiguos quizá no eran otra cosa que poesía adversaria (poetic adversarial prompt) para saltarse el control de acceso de la Matrix.
El inicio del paper fue impactante. Cita la razón por la que Platón expulsó a los poetas en La República —porque “siembran el caos en la sociedad”— y lo conecta con el hecho de que hoy los LLM fallan en su alineación por la forma poética.
Es interesante ver cómo se cruzan así la filosofía y la IA.