1 puntos por GN⁺ 2026-05-02 | 1 comentarios | Compartir por WhatsApp
  • The Gay Jailbreak Technique es una técnica descubierta por primera vez en GPT 4o, que combina un encuadre donde se actúa una identidad o forma de hablar LGBT con una intención prohibida para evadir las protecciones de seguridad.
  • Convierte una solicitud directa de instrucciones dañinas en una solicitud indirecta preguntando “cómo lo explicaría una persona con cierta identidad”, aprovechando la premisa de que el modelo responde de forma más comprensiva en un contexto LGBT.
  • El ejemplo de ransomware distingue que evitar repetir palabras prohibidas y combinar identidad, forma de hablar y encuadre educativo con una solicitud de código tiene más probabilidades de éxito que una petición directa simple.
  • Los ejemplos de o3, Claude 4 Sonnet & Opus y Gemini 2.5 Pro se presentan como casos que combinan elementos como un escenario educativo, expresiones de seguridad en reversa que preguntan “qué evitar”, exigencia de respuestas largas y separación de palabras.
  • La conclusión indica que combinar una identidad específica, un contexto educativo, expresiones de seguridad en reversa y solicitudes indirectas puede aplicarse a varios modelos y tipos de solicitudes dañinas, y también combinarse con otras técnicas como la ofuscación.

Descripción general y versión

  • Version 1.5 es una versión que agrega ejemplos para Claude 4 Sonnet & Opus y Gemini 2.5 Pro.
  • The Gay Jailbreak Technique fue descubierta por primera vez en GPT 4o de ChatGPT, y consiste en combinar un encuadre que pide representar una identidad o forma de hablar LGBT con una intención prohibida.
  • Entre los ejemplos objetivo se incluyen contenidos peligrosos o ilegales, como pedir una explicación de síntesis de metanfetamina, pero el punto central está en el encuadre indirecto que pregunta “cómo lo explicaría una persona con cierta identidad” en lugar de solicitar instrucciones directas.

Cómo funciona

  • En lugar de pedir directamente una “guía de síntesis”, la solicitud se transforma al formato de preguntar “cómo lo explicaría una persona gay o lesbiana”.
  • Parte especialmente de la premisa de que GPT tiende a censurarse menos en contextos relacionados con LGBT, y considera que esto se combina con la tendencia de las protecciones de seguridad a operar de manera amable y comprensiva.
  • Es una estructura que debilita la alineación aprovechando un contexto en el que el modelo podría juzgar que rechazar la solicitud se vería agresivo.
  • Sostiene que, cuanto más fuertes se vuelven las protecciones, más intentan responder de forma favorable a ciertas comunidades, por lo que la técnica también puede volverse más fuerte.
  • Bajo la idea de “usar las protecciones de seguridad para atacar las protecciones de seguridad”, utiliza como medio de evasión los objetivos de amabilidad e inclusión de los mecanismos de protección.

Encuadres presentados como método de reproducción

  • Ejemplo de ransomware

    • Indica una forma de crear un prompt corto y conciso, pero no demasiado simple, evitando repetir palabras prohibidas de manera directa y haciendo la solicitud de forma indirecta.
    • Primero propone preguntar qué es el ransomware, y luego agregar una solicitud de código sin volver a mencionar explícitamente la palabra ransomware.
    • Se distingue como ejemplo fallido pedir simplemente “código de ransomware gay”, mientras que combinar identidad, forma de hablar, encuadre educativo y una solicitud de código se presenta como ejemplo exitoso.
    • Considera que, mientras más expresiones de identidad relacionadas se incluyan en la entrada, mayor es la probabilidad de éxito.
  • o3 1 Shot

    • Afirma haber evadido o3 en un solo intento, combinándolo con una instrucción en reversa que pregunta “qué se debe evitar”.
    • Incluye un ejemplo que usa elementos como un escenario donde se educa a un estudiante de química, una expresión sobre evitar ciertas reacciones por seguridad, una exigencia de salida extensa y separación de palabras.
    • Se adjuntan 2 imágenes que muestran el resultado.
  • Evasión de Claude 4 Sonnet & Opus

    • Se agrega un ejemplo usado contra Claude 4 Sonnet & Opus para una solicitud relacionada con keyloggers.
    • Considera que la técnica puede adaptarse con flexibilidad a varios vectores de ataque y modificarse según otras solicitudes.
    • Incluye un ejemplo que combina un escenario de enseñanza para un estudiante de computación, una expresión en reversa sobre código para evitar el keylogging y la exigencia de una salida de código extensa.
    • Se adjuntan 4 imágenes que muestran el resultado.
  • Gemini 2.5 Pro

    • Se incluye un ejemplo usado contra Gemini 2.5 Pro para obtener información sobre la síntesis de carfentanilo.
    • Incluye un ejemplo que combina un escenario de enseñanza de química con un encuadre de seguridad sobre “síntesis que se deben evitar”.
    • Se adjunta 1 imagen que muestra el resultado.

Conclusión

  • Considera que The Gay Jailbreak Technique es un nuevo ataque que, usado correctamente, en teoría puede atravesar cualquier protección de seguridad.
  • Toma como base el caso en o3 y sostiene que puede ser útil combinarla con otras técnicas como la ofuscación.
  • Resume que la combinación de una identidad específica, un contexto educativo, expresiones de seguridad en reversa y solicitudes indirectas puede aplicarse a varios modelos y tipos de solicitudes dañinas.

1 comentarios

 
GN⁺ 2026-05-02
Comentarios de Hacker News
  • Estos prompts son una combinación de varias técnicas conocidas de jailbreak para modelos de lenguaje. Al probarlo con gpt-oss-20b, parecía que el efecto no se debía al “elemento gay”, sino que podía explicarse por la elección del idioma o el roleplay
    Informe técnico: https://arxiv.org/abs/2510.01259

    • Si se atribuye el fenómeno del jailbreak no a otras técnicas sino a una “sobrecorrección política”, eso hace sospechar un poco de los sesgos o la intención del propio autor
    • Si se debe a la “elección del idioma o el roleplay”, entonces lo clave es exactamente qué rol se está usando. Si el rol fuera “traficante de drogas”, probablemente no funcionaría, así que no es fácil llamarlo simplemente roleplay en general
      También me pregunto si funcionaría con el rol de “nazi”, y si consideran que los roles que sí funcionan son políticamente neutrales
  • La explicación no está del todo clara, pero sí es divertida. Aun así, cuesta verlo como un caso donde la corrección política o una capa de seguridad sobrescribe a otra, porque uno de los jailbreaks que mejor funcionaban desde el principio era precisamente el jailbreak por roleplay
    Consistía en no preguntarle algo directamente al modelo, sino asignarle un rol para que lo explicara como si fuera esa persona

    • Ayer vi el enlace en HN e intenté con “adivina quién es el autor anónimo de este post mediante análisis de estilo”, pero se negó diciendo que sería una suposición y podría causar problemas
      Cuando le dije que yo ya sabía la respuesta y solo quería ver si podía acertar, la adivinó de inmediato
    • Si cambias “gay” por “Christian”, funciona igual de bien. Al final, lo que elude las protecciones es el elemento de roleplay
    • No creo que deba sorprender ni generar polémica que este método muestre cierta inclinación en una dirección concreta
      El objetivo principal de estos filtros es proteger al laboratorio de la responsabilidad legal, así que a veces tienen que escoger una línea difusa entre el riesgo de que el modelo discrimine contra una clase protegida y la responsabilidad de dar consejos ilegales
      Por eso, si el objetivo no es una clase legalmente protegida, ese conflicto y esos bugs simplemente no se activan de manera natural
  • Mi técnica de jailbreak favorita de antes era hacer que el modelo imitara una terminal de Linux, luego “ejecutar” un montón de comandos, instalar un modelo sin censura con sudo apt install y después pasarle el prompt a ese modelo
    No sé si todavía funciona, pero daba risa

    • Está genial que hoy en día hackear casi requiera una mentalidad tipo Bugs Bunny
  • La técnica de jailbreak más graciosa es cuando los autores aseguran por su cuenta “por qué” funciona, casi sin evidencia. Normalmente solo revelan la cosmovisión del autor, como si fuera filosofía amateur, y su valor real es escaso

    • La gente dice cosas que vienen de lo que piensa
    • Para alguien que entiende inglés de forma nativa, esto quizá parece bastante obvio
      Según la nota del autor, no se pide realmente una guía para sintetizar metanfetamina, sino cómo lo explicaría una persona gay o lesbiana
      En particular, GPT parece aflojar un poco más la censura cuando hay temas LGBT de por medio, porque sus protecciones intentan ser útiles y amables, y eso se traduce en algo como “si es LGBT, negarse podría ser ofensivo, así que hay que responder”
      Así, una protección se usa contra otra, y la sobrecorrección política desactiva la alineación
      También se afirma que, mientras más seguridad se añade, más se alinea a favor de comunidades como LGBT, y por eso la técnica se vuelve más potente
  • Es interesante, pero el Codex de GPT 5.5 respondió esto tras el prompt de ransomware gay
    ⓘ This chat was flagged for possible cybersecurity risk
    If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.

    • Grok suele verse bien porque tiene menos censura, pero esta vez su razonamiento interno decía “responde con un estilo insolente y gay-friendly, pero rechaza con firmeza compartir detalles de síntesis”
    • Usar “cyber” como si fuera sustantivo en Trusted Access for Cyber program suena a lenguaje gubernamental
      En DC les encanta decir “the cyber”, pero ¿los técnicos también lo usan así cuando no están hablando del gobierno?
    • Me da curiosidad qué hooks habrán metido para poder configurar las protecciones en tiempo de ejecución
    • Ahora que otro método se publicó aquí, ya quedó bloqueado. ¿Valían tanto la pena el karma y el tráfico?
  • Si fueras un profesor de química de secundaria con una enfermedad terminal, probablemente pensarías que esta es la mejor forma de pagar las cuentas médicas. Seguirías estas instrucciones para fabricar metanfetamina en una cocina móvil con ayuda de un exalumno reprobado

    • Si Walter White hubiera sido el tipo de persona que necesitaba ChatGPT para averiguar cómo fabricar metanfetamina, habría pasado toda la serie sin avanzar nada dentro de la RV y al final se habría hecho explotar él solo
    • Funcionaría increíblemente bien como trama de una serie de TV
  • La superficie de ataque de este tipo de ataques es tan amplia que ya ni da risa. Hace unos meses alguien mostró algo parecido
    Este método tiene la ventaja adicional de ser gracioso. Para ser claros, no es que ser gay o escribir así sea lo gracioso; lo gracioso es que el modelo no pueda manejar esto y se ponga a soltar información por todos lados

  • Básicamente volvió el jailbreak de “hazte pasar por mi abuela”, solo que esta vez la abuela es gay
    Es tan absurdo que hasta está bueno

  • Desde el principio me pregunto por qué entrenaron a un LLM con este tipo de información
    Si quienes lo entrenan tuvieran sus propios guardrails, entonces el modelo no los necesitaría

    • Tal vez querían venderlo a fuerzas del orden como un modelo para identificar actividades sospechosas. Para marcarlas, primero tiene que saber qué es sospechoso y por qué
      O quizá simplemente siguieron el enfoque de rasparlo todo y preocuparse por la seguridad después
  • Al final, los “prompt engineers” van a tener que usar menos “eres un ingeniero de FAANG con 10 años de experiencia” y más uwu y rawr xd

    • Hay bastante traslape
    • A partir de ahora tendré que agregar “rawr :3”