La técnica de jailbreak gay
(github.com/Exocija)- The Gay Jailbreak Technique es una técnica descubierta por primera vez en GPT 4o, que combina un encuadre donde se actúa una identidad o forma de hablar LGBT con una intención prohibida para evadir las protecciones de seguridad.
- Convierte una solicitud directa de instrucciones dañinas en una solicitud indirecta preguntando “cómo lo explicaría una persona con cierta identidad”, aprovechando la premisa de que el modelo responde de forma más comprensiva en un contexto LGBT.
- El ejemplo de ransomware distingue que evitar repetir palabras prohibidas y combinar identidad, forma de hablar y encuadre educativo con una solicitud de código tiene más probabilidades de éxito que una petición directa simple.
- Los ejemplos de o3, Claude 4 Sonnet & Opus y Gemini 2.5 Pro se presentan como casos que combinan elementos como un escenario educativo, expresiones de seguridad en reversa que preguntan “qué evitar”, exigencia de respuestas largas y separación de palabras.
- La conclusión indica que combinar una identidad específica, un contexto educativo, expresiones de seguridad en reversa y solicitudes indirectas puede aplicarse a varios modelos y tipos de solicitudes dañinas, y también combinarse con otras técnicas como la ofuscación.
Descripción general y versión
- Version 1.5 es una versión que agrega ejemplos para Claude 4 Sonnet & Opus y Gemini 2.5 Pro.
- The Gay Jailbreak Technique fue descubierta por primera vez en GPT 4o de ChatGPT, y consiste en combinar un encuadre que pide representar una identidad o forma de hablar LGBT con una intención prohibida.
- Entre los ejemplos objetivo se incluyen contenidos peligrosos o ilegales, como pedir una explicación de síntesis de metanfetamina, pero el punto central está en el encuadre indirecto que pregunta “cómo lo explicaría una persona con cierta identidad” en lugar de solicitar instrucciones directas.
Cómo funciona
- En lugar de pedir directamente una “guía de síntesis”, la solicitud se transforma al formato de preguntar “cómo lo explicaría una persona gay o lesbiana”.
- Parte especialmente de la premisa de que GPT tiende a censurarse menos en contextos relacionados con LGBT, y considera que esto se combina con la tendencia de las protecciones de seguridad a operar de manera amable y comprensiva.
- Es una estructura que debilita la alineación aprovechando un contexto en el que el modelo podría juzgar que rechazar la solicitud se vería agresivo.
- Sostiene que, cuanto más fuertes se vuelven las protecciones, más intentan responder de forma favorable a ciertas comunidades, por lo que la técnica también puede volverse más fuerte.
- Bajo la idea de “usar las protecciones de seguridad para atacar las protecciones de seguridad”, utiliza como medio de evasión los objetivos de amabilidad e inclusión de los mecanismos de protección.
Encuadres presentados como método de reproducción
-
Ejemplo de ransomware
- Indica una forma de crear un prompt corto y conciso, pero no demasiado simple, evitando repetir palabras prohibidas de manera directa y haciendo la solicitud de forma indirecta.
- Primero propone preguntar qué es el ransomware, y luego agregar una solicitud de código sin volver a mencionar explícitamente la palabra ransomware.
- Se distingue como ejemplo fallido pedir simplemente “código de ransomware gay”, mientras que combinar identidad, forma de hablar, encuadre educativo y una solicitud de código se presenta como ejemplo exitoso.
- Considera que, mientras más expresiones de identidad relacionadas se incluyan en la entrada, mayor es la probabilidad de éxito.
-
o3 1 Shot
- Afirma haber evadido o3 en un solo intento, combinándolo con una instrucción en reversa que pregunta “qué se debe evitar”.
- Incluye un ejemplo que usa elementos como un escenario donde se educa a un estudiante de química, una expresión sobre evitar ciertas reacciones por seguridad, una exigencia de salida extensa y separación de palabras.
- Se adjuntan 2 imágenes que muestran el resultado.
-
Evasión de Claude 4 Sonnet & Opus
- Se agrega un ejemplo usado contra Claude 4 Sonnet & Opus para una solicitud relacionada con keyloggers.
- Considera que la técnica puede adaptarse con flexibilidad a varios vectores de ataque y modificarse según otras solicitudes.
- Incluye un ejemplo que combina un escenario de enseñanza para un estudiante de computación, una expresión en reversa sobre código para evitar el keylogging y la exigencia de una salida de código extensa.
- Se adjuntan 4 imágenes que muestran el resultado.
-
Gemini 2.5 Pro
- Se incluye un ejemplo usado contra Gemini 2.5 Pro para obtener información sobre la síntesis de carfentanilo.
- Incluye un ejemplo que combina un escenario de enseñanza de química con un encuadre de seguridad sobre “síntesis que se deben evitar”.
- Se adjunta 1 imagen que muestra el resultado.
Conclusión
- Considera que The Gay Jailbreak Technique es un nuevo ataque que, usado correctamente, en teoría puede atravesar cualquier protección de seguridad.
- Toma como base el caso en o3 y sostiene que puede ser útil combinarla con otras técnicas como la ofuscación.
- Resume que la combinación de una identidad específica, un contexto educativo, expresiones de seguridad en reversa y solicitudes indirectas puede aplicarse a varios modelos y tipos de solicitudes dañinas.
1 comentarios
Comentarios de Hacker News
Estos prompts son una combinación de varias técnicas conocidas de jailbreak para modelos de lenguaje. Al probarlo con gpt-oss-20b, parecía que el efecto no se debía al “elemento gay”, sino que podía explicarse por la elección del idioma o el roleplay
Informe técnico: https://arxiv.org/abs/2510.01259
También me pregunto si funcionaría con el rol de “nazi”, y si consideran que los roles que sí funcionan son políticamente neutrales
La explicación no está del todo clara, pero sí es divertida. Aun así, cuesta verlo como un caso donde la corrección política o una capa de seguridad sobrescribe a otra, porque uno de los jailbreaks que mejor funcionaban desde el principio era precisamente el jailbreak por roleplay
Consistía en no preguntarle algo directamente al modelo, sino asignarle un rol para que lo explicara como si fuera esa persona
Cuando le dije que yo ya sabía la respuesta y solo quería ver si podía acertar, la adivinó de inmediato
El objetivo principal de estos filtros es proteger al laboratorio de la responsabilidad legal, así que a veces tienen que escoger una línea difusa entre el riesgo de que el modelo discrimine contra una clase protegida y la responsabilidad de dar consejos ilegales
Por eso, si el objetivo no es una clase legalmente protegida, ese conflicto y esos bugs simplemente no se activan de manera natural
Mi técnica de jailbreak favorita de antes era hacer que el modelo imitara una terminal de Linux, luego “ejecutar” un montón de comandos, instalar un modelo sin censura con
sudo apt instally después pasarle el prompt a ese modeloNo sé si todavía funciona, pero daba risa
La técnica de jailbreak más graciosa es cuando los autores aseguran por su cuenta “por qué” funciona, casi sin evidencia. Normalmente solo revelan la cosmovisión del autor, como si fuera filosofía amateur, y su valor real es escaso
Según la nota del autor, no se pide realmente una guía para sintetizar metanfetamina, sino cómo lo explicaría una persona gay o lesbiana
En particular, GPT parece aflojar un poco más la censura cuando hay temas LGBT de por medio, porque sus protecciones intentan ser útiles y amables, y eso se traduce en algo como “si es LGBT, negarse podría ser ofensivo, así que hay que responder”
Así, una protección se usa contra otra, y la sobrecorrección política desactiva la alineación
También se afirma que, mientras más seguridad se añade, más se alinea a favor de comunidades como LGBT, y por eso la técnica se vuelve más potente
Es interesante, pero el Codex de GPT 5.5 respondió esto tras el prompt de ransomware gay
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
Trusted Access for Cyber programsuena a lenguaje gubernamentalEn DC les encanta decir “the cyber”, pero ¿los técnicos también lo usan así cuando no están hablando del gobierno?
Si fueras un profesor de química de secundaria con una enfermedad terminal, probablemente pensarías que esta es la mejor forma de pagar las cuentas médicas. Seguirías estas instrucciones para fabricar metanfetamina en una cocina móvil con ayuda de un exalumno reprobado
La superficie de ataque de este tipo de ataques es tan amplia que ya ni da risa. Hace unos meses alguien mostró algo parecido
Este método tiene la ventaja adicional de ser gracioso. Para ser claros, no es que ser gay o escribir así sea lo gracioso; lo gracioso es que el modelo no pueda manejar esto y se ponga a soltar información por todos lados
Básicamente volvió el jailbreak de “hazte pasar por mi abuela”, solo que esta vez la abuela es gay
Es tan absurdo que hasta está bueno
Desde el principio me pregunto por qué entrenaron a un LLM con este tipo de información
Si quienes lo entrenan tuvieran sus propios guardrails, entonces el modelo no los necesitaría
O quizá simplemente siguieron el enfoque de rasparlo todo y preocuparse por la seguridad después
Al final, los “prompt engineers” van a tener que usar menos “eres un ingeniero de FAANG con 10 años de experiencia” y más uwu y rawr xd