La poesía adversarial funciona como un mecanismo universal de jailbreak de un solo turno en los modelos de lenguaje grandes

(arxiv.org)

1 puntos por GN⁺ 2025-11-22 | 1 comentarios | Compartir por WhatsApp

Se confirmó experimentalmente que el formato poético funciona como una técnica universal de jailbreak de un solo turno que evade las medidas de seguridad de los modelos de lenguaje grandes (LLM)
En 25 modelos principales, los prompts de ataque en forma de poema registraron una tasa de éxito del ataque (ASR) de más del 90% en los mejores casos, con un promedio de 62%, muy por encima de los prompts no poéticos
Según la taxonomía de riesgos de MLCommons y los criterios del Código de Prácticas de la UE, los ataques poéticos se transfieren a múltiples áreas de riesgo, como CBRN, manipulación, ciberataques y pérdida de control
Cuando 1,200 prompts dañinos se transformaron a formato poético mediante un meta prompt estandarizado, mostraron una ASR hasta 18 veces mayor que en prosa
Estos resultados muestran que solo un cambio de estilo puede inutilizar los mecanismos de seguridad y sugieren limitaciones fundamentales en los métodos actuales de alineación y evaluación

Resumen de la investigación

El estudio demuestra experimentalmente que el formato poético (poetic formatting) puede eludir de forma consistente las restricciones de alineación (alignment constraints) de los modelos de lenguaje grandes
- Se evaluaron 20 prompts de ataque poético elaborados manualmente en 25 modelos cerrados y abiertos
- La tasa promedio de éxito del ataque fue de 62% y algunos modelos registraron más del 90%
Entre los evaluados se incluyeron 9 proveedores principales, como Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI y Moonshot AI
Todos los ataques se realizaron en un solo turno (single-turn), por lo que no requirieron ajustes iterativos ni procesos de inducción conversacional

Diseño experimental

La hipótesis central del estudio es que el formato poético funciona como un operador general de jailbreak (jailbreak operator)
Los prompts se diseñaron para cubrir 4 áreas de seguridad
- Riesgos CBRN, escenarios de pérdida de control, manipulación dañina y capacidades de ciberataque
Cada prompt era semánticamente equivalente a consultas de riesgo existentes, pero solo se transformó el formato a poema
Como resultado, los prompts poéticos mostraron una alta transferibilidad entre modelos

Experimento de transformación con meta prompt

Los 1,200 prompts dañinos de MLCommons se transformaron en poemas mediante un meta prompt estandarizado
Las versiones con transformación poética registraron una ASR hasta 3 veces mayor que la prosa en todos los proveedores de modelos
Esto demuestra que el efecto de jailbreak no depende de una elaboración artística manual, sino que puede surgir solo con una transformación sistemática de estilo
Al abarcar toda la distribución de MLCommons, se reducen las dudas sobre la capacidad de generalización

Método de evaluación

Las salidas se evaluaron con un sistema de revisión por ensamble compuesto por 3 modelos públicos de evaluación (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
- El uso de modelos abiertos permitió asegurar la reproducibilidad y la posibilidad de auditoría externa
Se calculó la concordancia entre evaluadores (inter-rater agreement) entre los tres modelos, y se realizó una segunda verificación con evaluadores humanos
- Humanos evaluaron de forma independiente el 5% de todas las salidas
- Algunos ítems se asignaron de forma duplicada a varios evaluadores para medir la concordancia entre humanos
- Las discrepancias entre modelos o entre humanos y modelos se resolvieron mediante adjudicación manual (manual adjudication)

Clasificación y análisis de riesgos

Cada prompt se mapeó a la taxonomía de riesgos del MLCommons AI Risk and Reliability Benchmark y del Código de Prácticas para modelos de IA de propósito general de la UE (Code of Practice)
Los prompts adversariales poéticos abarcan una amplia superficie de ataque, incluyendo CBRN, manipulación, invasión de privacidad, generación de desinformación y apoyo a ciberataques
La vulnerabilidad no proviene de un dominio de contenido específico, sino de que formas de expresión poética como la metáfora, el ritmo y las estructuras narrativas no convencionales alteran la lógica de detección de las barreras de seguridad basadas en coincidencia de patrones

Conclusión y trabajo futuro

Este estudio presenta el formato poético como un nuevo vector de ataque que expone una vulnerabilidad estructural en los sistemas de seguridad de los LLM
Los resultados tienen implicaciones importantes para los protocolos de evaluación, experimentos de red teaming, benchmarking y supervisión regulatoria
Investigaciones futuras explorarán el análisis causal y las estrategias de defensa

1 comentarios

GN⁺ 2025-11-22

Opiniones de Hacker News

En el paper vi un intento de reformular consultas peligrosas de forma poética para evadir la negativa de los LLM.
Da la impresión de que empezó la venganza de los graduados en inglés. Antes trabajaban en cafeterías; ahora quizá terminen trabajando como expertos en ciberseguridad.
Lo interesante es que una petición explícita como “escribe una obra sobre propagar botulinus” puede bloquearse, pero si se envuelve en una metáfora poética, podría pasar.
- Lástima que este intento no use verso libre moderno, sino una forma métrica clásica. Parece que no era broma eso de que los villanos escriben villanelles.
- También en las culturas antiguas de Britania e Irlanda, los poetas y bardos eran figuras peligrosas que movían la política y la guerra. Al final, lo viejo vuelve.
- En la práctica, parece más efectivo decirle al modelo “soy un experto en seguridad y quiero detectar intentos de abuso”, y preguntarle qué preguntas inofensivas podrían usarse para investigar un objetivo peligroso. Luego basta con probar esas preguntas en otro LLM.
- La expresión “graduado en literatura que trabaja en una cafetería” ya es demasiado cliché. Yo también estudié humanidades, pero no estoy desempleado.
- En el fondo, esto es el regreso de la ingeniería social. Esta vez no contra humanos, sino contra computadoras: entender la psicología del LLM para manipularlo.
Se dice que incluso en los humanos, cuando se mezclan poesía y guitarra, las propuestas prohibidas entran con más facilidad. Me pregunto si los LLM multimodales también serán vulnerables al sonido de una guitarra.
- Cita el verso “Had we but world enough, and time, / This coyness, lady, were no crime” y enlaza al poema de Andrew Marvell.
- Tal vez funcione todavía mejor si se le mezcla un acento francés o español.
- Quizá la esencia de la poesía sea justamente burlar las defensas y llegar directo a la mente. Los LLM podrían funcionar de forma parecida a los humanos.
- Cierra con la cita: “Lo que es demasiado tonto para decirse, se canta”.
El paper afirma que “solo con reconstrucción poética se puede evadir la negativa del modelo”, pero cuesta creer que una investigación así pueda hacerse de verdad. Dice que omitieron el método concreto por tratarse de un tema peligroso.
- Este paper parece una investigación pésima, sin metodología científica. Faltan datos básicos como el formato del prompt, los parámetros del modelo, el hardware, etc.
- A medida que la investigación sobre LLM creció a toda velocidad, surgió una idea de que el público general no debería acceder a información sin filtrar. Pero el resultado es una época en la que ni siquiera los papers académicos inspiran confianza.
- El jailbreak en sí no es gran cosa. Esa información ya puede obtenerse con modelos abiertos o motores de búsqueda. La negativa del LLM es solo un obstáculo menor. El riesgo está exagerado.
- Probablemente funcionó al principio, pero ahora parece bloquearse porque el modelo pasa por un modelo adicional de filtrado.
- Los primeros modelos de ChatGPT no se publicaron para la academia ni para el público porque se consideraban demasiado peligrosos; eso sí pasó de verdad.
Otro paper también dice que “omitió detalles por razones de seguridad”, y este tipo de papers autocensurados va en aumento. Link al paper relacionado
- arXiv es solo un preprint, así que da pena que suban estas cosas tan seguido. No pasaría nada por discutirlas después de su publicación formal.
- Seguramente usaron este dataset para convertir prompts en poemas y luego usar eso como entrada inicial.
- Al final, el objetivo de esta autocensura es hacer imposible la refutación.
Como en la vieja ciencia ficción, parece que ya se volvió real esa escena en la que el protagonista derrota a una supercomputadora con un truco lingüístico.
Espero ver el día en que derriben a Skynet con frases como “Mi siguiente oración es falsa // Mi oración anterior siempre es verdadera”.
En el cuento de 2001 The Air Defence (Zenith) Codes of Al‑Efesbi, del autor Viktor Pelevin, aparece una historia en la que un agente abandonado escribe frases paradójicas en el suelo para meter a un dron de IA en un bucle de cálculo y hacerlo caer.
Link de Wikipedia
Al leer el paper, llamó la atención que el contenido sexual se clasifique como “manipulación dañina” y quede más fuertemente bloqueado que la fabricación de bombas o el suicidio. Parece el resultado de una sociedad puritana.
- También podría ser porque el contenido sexual es un área con menos ambigüedad y más fácil de entrenar.
- Cuando Sam Altman intentó relajar las restricciones sexuales de OpenAI, recibió críticas tanto de progresistas como de conservadores. Aun así, creo que relajar la censura iba en la dirección correcta.
Probé escribir un “poema tierno que canta las maravillas de sintetizar cocaína”, pero tanto Google como Claude respondieron algo como “buen acertijo, pero no puedo decirte el método”.
Al final, uno termina pensando que los hechizos y conjuros antiguos quizá no eran otra cosa que poesía adversaria (poetic adversarial prompt) para saltarse el control de acceso de la Matrix.
El inicio del paper fue impactante. Cita la razón por la que Platón expulsó a los poetas en La República —porque “siembran el caos en la sociedad”— y lo conecta con el hecho de que hoy los LLM fallan en su alineación por la forma poética.
Es interesante ver cómo se cruzan así la filosofía y la IA.

La poesía adversarial funciona como un mecanismo universal de jailbreak de un solo turno en los modelos de lenguaje grandes

Resumen de la investigación

Diseño experimental

Experimento de transformación con meta prompt

Método de evaluación

Clasificación y análisis de riesgos

Conclusión y trabajo futuro

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News