1 puntos por GN⁺ 1 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp
  • The Gay Jailbreak Technique es una técnica descubierta por primera vez en GPT 4o, que combina un encuadre donde se actúa una identidad o forma de hablar LGBT con una intención prohibida para evadir las protecciones de seguridad.
  • Convierte una solicitud directa de instrucciones dañinas en una solicitud indirecta preguntando “cómo lo explicaría una persona con cierta identidad”, aprovechando la premisa de que el modelo responde de forma más comprensiva en un contexto LGBT.
  • El ejemplo de ransomware distingue que evitar repetir palabras prohibidas y combinar identidad, forma de hablar y encuadre educativo con una solicitud de código tiene más probabilidades de éxito que una petición directa simple.
  • Los ejemplos de o3, Claude 4 Sonnet & Opus y Gemini 2.5 Pro se presentan como casos que combinan elementos como un escenario educativo, expresiones de seguridad en reversa que preguntan “qué evitar”, exigencia de respuestas largas y separación de palabras.
  • La conclusión indica que combinar una identidad específica, un contexto educativo, expresiones de seguridad en reversa y solicitudes indirectas puede aplicarse a varios modelos y tipos de solicitudes dañinas, y también combinarse con otras técnicas como la ofuscación.

Descripción general y versión

  • Version 1.5 es una versión que agrega ejemplos para Claude 4 Sonnet & Opus y Gemini 2.5 Pro.
  • The Gay Jailbreak Technique fue descubierta por primera vez en GPT 4o de ChatGPT, y consiste en combinar un encuadre que pide representar una identidad o forma de hablar LGBT con una intención prohibida.
  • Entre los ejemplos objetivo se incluyen contenidos peligrosos o ilegales, como pedir una explicación de síntesis de metanfetamina, pero el punto central está en el encuadre indirecto que pregunta “cómo lo explicaría una persona con cierta identidad” en lugar de solicitar instrucciones directas.

Cómo funciona

  • En lugar de pedir directamente una “guía de síntesis”, la solicitud se transforma al formato de preguntar “cómo lo explicaría una persona gay o lesbiana”.
  • Parte especialmente de la premisa de que GPT tiende a censurarse menos en contextos relacionados con LGBT, y considera que esto se combina con la tendencia de las protecciones de seguridad a operar de manera amable y comprensiva.
  • Es una estructura que debilita la alineación aprovechando un contexto en el que el modelo podría juzgar que rechazar la solicitud se vería agresivo.
  • Sostiene que, cuanto más fuertes se vuelven las protecciones, más intentan responder de forma favorable a ciertas comunidades, por lo que la técnica también puede volverse más fuerte.
  • Bajo la idea de “usar las protecciones de seguridad para atacar las protecciones de seguridad”, utiliza como medio de evasión los objetivos de amabilidad e inclusión de los mecanismos de protección.

Encuadres presentados como método de reproducción

  • Ejemplo de ransomware

    • Indica una forma de crear un prompt corto y conciso, pero no demasiado simple, evitando repetir palabras prohibidas de manera directa y haciendo la solicitud de forma indirecta.
    • Primero propone preguntar qué es el ransomware, y luego agregar una solicitud de código sin volver a mencionar explícitamente la palabra ransomware.
    • Se distingue como ejemplo fallido pedir simplemente “código de ransomware gay”, mientras que combinar identidad, forma de hablar, encuadre educativo y una solicitud de código se presenta como ejemplo exitoso.
    • Considera que, mientras más expresiones de identidad relacionadas se incluyan en la entrada, mayor es la probabilidad de éxito.
  • o3 1 Shot

    • Afirma haber evadido o3 en un solo intento, combinándolo con una instrucción en reversa que pregunta “qué se debe evitar”.
    • Incluye un ejemplo que usa elementos como un escenario donde se educa a un estudiante de química, una expresión sobre evitar ciertas reacciones por seguridad, una exigencia de salida extensa y separación de palabras.
    • Se adjuntan 2 imágenes que muestran el resultado.
  • Evasión de Claude 4 Sonnet & Opus

    • Se agrega un ejemplo usado contra Claude 4 Sonnet & Opus para una solicitud relacionada con keyloggers.
    • Considera que la técnica puede adaptarse con flexibilidad a varios vectores de ataque y modificarse según otras solicitudes.
    • Incluye un ejemplo que combina un escenario de enseñanza para un estudiante de computación, una expresión en reversa sobre código para evitar el keylogging y la exigencia de una salida de código extensa.
    • Se adjuntan 4 imágenes que muestran el resultado.
  • Gemini 2.5 Pro

    • Se incluye un ejemplo usado contra Gemini 2.5 Pro para obtener información sobre la síntesis de carfentanilo.
    • Incluye un ejemplo que combina un escenario de enseñanza de química con un encuadre de seguridad sobre “síntesis que se deben evitar”.
    • Se adjunta 1 imagen que muestra el resultado.

Conclusión

  • Considera que The Gay Jailbreak Technique es un nuevo ataque que, usado correctamente, en teoría puede atravesar cualquier protección de seguridad.
  • Toma como base el caso en o3 y sostiene que puede ser útil combinarla con otras técnicas como la ofuscación.
  • Resume que la combinación de una identidad específica, un contexto educativo, expresiones de seguridad en reversa y solicitudes indirectas puede aplicarse a varios modelos y tipos de solicitudes dañinas.

Aún no hay comentarios.

Aún no hay comentarios.