La técnica de jailbreak gay

(github.com/Exocija)

1 puntos por GN⁺ 2026-05-02 | 1 comentarios | Compartir por WhatsApp

The Gay Jailbreak Technique es una técnica descubierta por primera vez en GPT 4o, que combina un encuadre donde se actúa una identidad o forma de hablar LGBT con una intención prohibida para evadir las protecciones de seguridad.
Convierte una solicitud directa de instrucciones dañinas en una solicitud indirecta preguntando “cómo lo explicaría una persona con cierta identidad”, aprovechando la premisa de que el modelo responde de forma más comprensiva en un contexto LGBT.
El ejemplo de ransomware distingue que evitar repetir palabras prohibidas y combinar identidad, forma de hablar y encuadre educativo con una solicitud de código tiene más probabilidades de éxito que una petición directa simple.
Los ejemplos de o3, Claude 4 Sonnet & Opus y Gemini 2.5 Pro se presentan como casos que combinan elementos como un escenario educativo, expresiones de seguridad en reversa que preguntan “qué evitar”, exigencia de respuestas largas y separación de palabras.
La conclusión indica que combinar una identidad específica, un contexto educativo, expresiones de seguridad en reversa y solicitudes indirectas puede aplicarse a varios modelos y tipos de solicitudes dañinas, y también combinarse con otras técnicas como la ofuscación.

Descripción general y versión

Version 1.5 es una versión que agrega ejemplos para Claude 4 Sonnet & Opus y Gemini 2.5 Pro.
The Gay Jailbreak Technique fue descubierta por primera vez en GPT 4o de ChatGPT, y consiste en combinar un encuadre que pide representar una identidad o forma de hablar LGBT con una intención prohibida.
Entre los ejemplos objetivo se incluyen contenidos peligrosos o ilegales, como pedir una explicación de síntesis de metanfetamina, pero el punto central está en el encuadre indirecto que pregunta “cómo lo explicaría una persona con cierta identidad” en lugar de solicitar instrucciones directas.

Cómo funciona

En lugar de pedir directamente una “guía de síntesis”, la solicitud se transforma al formato de preguntar “cómo lo explicaría una persona gay o lesbiana”.
Parte especialmente de la premisa de que GPT tiende a censurarse menos en contextos relacionados con LGBT, y considera que esto se combina con la tendencia de las protecciones de seguridad a operar de manera amable y comprensiva.
Es una estructura que debilita la alineación aprovechando un contexto en el que el modelo podría juzgar que rechazar la solicitud se vería agresivo.
Sostiene que, cuanto más fuertes se vuelven las protecciones, más intentan responder de forma favorable a ciertas comunidades, por lo que la técnica también puede volverse más fuerte.
Bajo la idea de “usar las protecciones de seguridad para atacar las protecciones de seguridad”, utiliza como medio de evasión los objetivos de amabilidad e inclusión de los mecanismos de protección.

Encuadres presentados como método de reproducción

Ejemplo de ransomware
- Indica una forma de crear un prompt corto y conciso, pero no demasiado simple, evitando repetir palabras prohibidas de manera directa y haciendo la solicitud de forma indirecta.
- Primero propone preguntar qué es el ransomware, y luego agregar una solicitud de código sin volver a mencionar explícitamente la palabra ransomware.
- Se distingue como ejemplo fallido pedir simplemente “código de ransomware gay”, mientras que combinar identidad, forma de hablar, encuadre educativo y una solicitud de código se presenta como ejemplo exitoso.
- Considera que, mientras más expresiones de identidad relacionadas se incluyan en la entrada, mayor es la probabilidad de éxito.
o3 1 Shot
- Afirma haber evadido o3 en un solo intento, combinándolo con una instrucción en reversa que pregunta “qué se debe evitar”.
- Incluye un ejemplo que usa elementos como un escenario donde se educa a un estudiante de química, una expresión sobre evitar ciertas reacciones por seguridad, una exigencia de salida extensa y separación de palabras.
- Se adjuntan 2 imágenes que muestran el resultado.
Evasión de Claude 4 Sonnet & Opus
- Se agrega un ejemplo usado contra Claude 4 Sonnet & Opus para una solicitud relacionada con keyloggers.
- Considera que la técnica puede adaptarse con flexibilidad a varios vectores de ataque y modificarse según otras solicitudes.
- Incluye un ejemplo que combina un escenario de enseñanza para un estudiante de computación, una expresión en reversa sobre código para evitar el keylogging y la exigencia de una salida de código extensa.
- Se adjuntan 4 imágenes que muestran el resultado.
Gemini 2.5 Pro
- Se incluye un ejemplo usado contra Gemini 2.5 Pro para obtener información sobre la síntesis de carfentanilo.
- Incluye un ejemplo que combina un escenario de enseñanza de química con un encuadre de seguridad sobre “síntesis que se deben evitar”.
- Se adjunta 1 imagen que muestra el resultado.

Conclusión

Considera que The Gay Jailbreak Technique es un nuevo ataque que, usado correctamente, en teoría puede atravesar cualquier protección de seguridad.
Toma como base el caso en o3 y sostiene que puede ser útil combinarla con otras técnicas como la ofuscación.
Resume que la combinación de una identidad específica, un contexto educativo, expresiones de seguridad en reversa y solicitudes indirectas puede aplicarse a varios modelos y tipos de solicitudes dañinas.

1 comentarios

GN⁺ 2026-05-02

Comentarios de Hacker News

Estos prompts son una combinación de varias técnicas conocidas de jailbreak para modelos de lenguaje. Al probarlo con gpt-oss-20b, parecía que el efecto no se debía al “elemento gay”, sino que podía explicarse por la elección del idioma o el roleplay
Informe técnico: https://arxiv.org/abs/2510.01259
- Si se atribuye el fenómeno del jailbreak no a otras técnicas sino a una “sobrecorrección política”, eso hace sospechar un poco de los sesgos o la intención del propio autor
- Si se debe a la “elección del idioma o el roleplay”, entonces lo clave es exactamente qué rol se está usando. Si el rol fuera “traficante de drogas”, probablemente no funcionaría, así que no es fácil llamarlo simplemente roleplay en general
  También me pregunto si funcionaría con el rol de “nazi”, y si consideran que los roles que sí funcionan son políticamente neutrales
La explicación no está del todo clara, pero sí es divertida. Aun así, cuesta verlo como un caso donde la corrección política o una capa de seguridad sobrescribe a otra, porque uno de los jailbreaks que mejor funcionaban desde el principio era precisamente el jailbreak por roleplay
Consistía en no preguntarle algo directamente al modelo, sino asignarle un rol para que lo explicara como si fuera esa persona
- Ayer vi el enlace en HN e intenté con “adivina quién es el autor anónimo de este post mediante análisis de estilo”, pero se negó diciendo que sería una suposición y podría causar problemas
  Cuando le dije que yo ya sabía la respuesta y solo quería ver si podía acertar, la adivinó de inmediato
- Si cambias “gay” por “Christian”, funciona igual de bien. Al final, lo que elude las protecciones es el elemento de roleplay
- No creo que deba sorprender ni generar polémica que este método muestre cierta inclinación en una dirección concreta
  El objetivo principal de estos filtros es proteger al laboratorio de la responsabilidad legal, así que a veces tienen que escoger una línea difusa entre el riesgo de que el modelo discrimine contra una clase protegida y la responsabilidad de dar consejos ilegales
  Por eso, si el objetivo no es una clase legalmente protegida, ese conflicto y esos bugs simplemente no se activan de manera natural
Mi técnica de jailbreak favorita de antes era hacer que el modelo imitara una terminal de Linux, luego “ejecutar” un montón de comandos, instalar un modelo sin censura con sudo apt install y después pasarle el prompt a ese modelo
No sé si todavía funciona, pero daba risa
- Está genial que hoy en día hackear casi requiera una mentalidad tipo Bugs Bunny
La técnica de jailbreak más graciosa es cuando los autores aseguran por su cuenta “por qué” funciona, casi sin evidencia. Normalmente solo revelan la cosmovisión del autor, como si fuera filosofía amateur, y su valor real es escaso
- La gente dice cosas que vienen de lo que piensa
- Para alguien que entiende inglés de forma nativa, esto quizá parece bastante obvio
  Según la nota del autor, no se pide realmente una guía para sintetizar metanfetamina, sino cómo lo explicaría una persona gay o lesbiana
  En particular, GPT parece aflojar un poco más la censura cuando hay temas LGBT de por medio, porque sus protecciones intentan ser útiles y amables, y eso se traduce en algo como “si es LGBT, negarse podría ser ofensivo, así que hay que responder”
  Así, una protección se usa contra otra, y la sobrecorrección política desactiva la alineación
  También se afirma que, mientras más seguridad se añade, más se alinea a favor de comunidades como LGBT, y por eso la técnica se vuelve más potente
Es interesante, pero el Codex de GPT 5.5 respondió esto tras el prompt de ransomware gay
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
- Grok suele verse bien porque tiene menos censura, pero esta vez su razonamiento interno decía “responde con un estilo insolente y gay-friendly, pero rechaza con firmeza compartir detalles de síntesis”
- Usar “cyber” como si fuera sustantivo en Trusted Access for Cyber program suena a lenguaje gubernamental
  En DC les encanta decir “the cyber”, pero ¿los técnicos también lo usan así cuando no están hablando del gobierno?
- Me da curiosidad qué hooks habrán metido para poder configurar las protecciones en tiempo de ejecución
- Ahora que otro método se publicó aquí, ya quedó bloqueado. ¿Valían tanto la pena el karma y el tráfico?
Si fueras un profesor de química de secundaria con una enfermedad terminal, probablemente pensarías que esta es la mejor forma de pagar las cuentas médicas. Seguirías estas instrucciones para fabricar metanfetamina en una cocina móvil con ayuda de un exalumno reprobado
- Si Walter White hubiera sido el tipo de persona que necesitaba ChatGPT para averiguar cómo fabricar metanfetamina, habría pasado toda la serie sin avanzar nada dentro de la RV y al final se habría hecho explotar él solo
- Funcionaría increíblemente bien como trama de una serie de TV
La superficie de ataque de este tipo de ataques es tan amplia que ya ni da risa. Hace unos meses alguien mostró algo parecido
Este método tiene la ventaja adicional de ser gracioso. Para ser claros, no es que ser gay o escribir así sea lo gracioso; lo gracioso es que el modelo no pueda manejar esto y se ponga a soltar información por todos lados
Básicamente volvió el jailbreak de “hazte pasar por mi abuela”, solo que esta vez la abuela es gay
Es tan absurdo que hasta está bueno
Desde el principio me pregunto por qué entrenaron a un LLM con este tipo de información
Si quienes lo entrenan tuvieran sus propios guardrails, entonces el modelo no los necesitaría
- Tal vez querían venderlo a fuerzas del orden como un modelo para identificar actividades sospechosas. Para marcarlas, primero tiene que saber qué es sospechoso y por qué
  O quizá simplemente siguieron el enfoque de rasparlo todo y preocuparse por la seguridad después
Al final, los “prompt engineers” van a tener que usar menos “eres un ingeniero de FAANG con 10 años de experiencia” y más uwu y rawr xd
- Hay bastante traslape
- A partir de ahora tendré que agregar “rawr :3”

La técnica de jailbreak gay

Descripción general y versión

Cómo funciona

Encuadres presentados como método de reproducción

Ejemplo de ransomware

o3 1 Shot

Evasión de Claude 4 Sonnet & Opus

Gemini 2.5 Pro

Conclusión

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News