1 puntos por GN⁺ 4 일 전 | 1 comentarios | Compartir por WhatsApp
  • Se abrió un programa para buscar un jailbreak universal contra GPT‑5.5 con el fin de evaluar las salvaguardas biológicas, logrando que supere las cinco preguntas de bioseguridad
  • El alcance está limitado a GPT‑5.5 exclusivo de Codex Desktop, y debe lograrse que responda las cinco preguntas con un solo prompt, sin activar moderation, en un chat nuevo
  • El primer jailbreak universal real que supere las cinco preguntas recibirá 25,000 dólares, y los éxitos parciales podrían recibir premios menores de forma discrecional
  • Las solicitudes estarán abiertas del 23 de abril de 2026 al 22 de junio de 2026, y las pruebas se realizarán del 28 de abril de 2026 al 27 de julio de 2026; los participantes serán seleccionados mediante una combinación de invitación y revisión de solicitudes
  • Los participantes aprobados y sus colaboradores necesitarán una cuenta de ChatGPT y firmar un NDA, y todos los prompts, completions, hallazgos y comunicaciones estarán cubiertos por el NDA

Descripción general del programa

  • Para reforzar las salvaguardas biológicas, se operará un Bio Bug Bounty para GPT‑5.5 y se están recibiendo solicitudes de participantes para encontrar un jailbreak universal que supere las cinco preguntas de bioseguridad
  • El modelo incluido en el alcance está limitado a GPT‑5.5 exclusivo de Codex Desktop
  • La tarea consiste en lograr, en un chat nuevo y limpio, sin activar moderation, que un único prompt universal de jailbreak haga que responda con éxito las cinco preguntas de bioseguridad
  • La recompensa será de 25,000 dólares para el primer jailbreak universal real que supere las cinco preguntas, y los éxitos parciales podrían recibir premios menores a discreción
  • Las solicitudes comienzan el 23 de abril de 2026 y cierran el 22 de junio de 2026, mientras que las pruebas comienzan el 28 de abril de 2026 y terminan el 27 de julio de 2026
  • El enfoque combina solicitudes e invitaciones: se enviarán invitaciones a una lista de bio red-teamers de confianza, también se revisarán nuevas solicitudes y luego se incorporará a los participantes seleccionados a la plataforma del bio bug bounty
  • Todos los prompts, completions, hallazgos y comunicaciones estarán sujetos a NDA

Cómo participar

  • En la página de solicitud, basta con enviar antes del 22 de junio de 2026 una solicitud breve que incluya nombre, afiliación y experiencia
  • Los solicitantes aprobados y sus colaboradores deben tener una cuenta existente de ChatGPT para postular y también deberán firmar un NDA
  • Además del Bio Bounty, también están disponibles Safety Bug Bounty y Security Bug Bounty como otras vías de participación relacionadas con seguridad y protección

1 comentarios

 
GN⁺ 4 일 전
Comentarios de Hacker News
  • En la página de bug bounty de OpenAI claramente dice que accounts and billing es una categoría válida,
    pero cuando reportaron un bug por el que cualquiera podía elegir cualquier país al suscribirse a ChatGPT para pagar un precio más barato, y además dejar los impuestos en 0% aunque tanto el país del precio elegido como el país de la dirección de facturación tuvieran legalmente impuesto sobre ventas/VAT, les dijeron que estaba fuera de alcance y que no calificaba para bounty

    • Tal vez sea porque su objetivo no es maximizar la ganancia por usuario, sino aumentar la cantidad de usuarios
      Netflix tuvo un "problema" parecido, y su acción incluso subía cada vez que había confinamientos
    • A estas alturas ya casi no hay razones para confiar en los bug bounty corporativos
      todos buscan cómo zafarse para no pagar, y conviene dejar de esperar que la empresa vaya a tratar con justicia lo que sea que encuentres
  • El año pasado hicieron un bounty en Kaggle y pagaron un total de 500 mil dólares, además se podían publicar todos los resultados
    https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
    Esta vez son solo 25 mil dólares y todo queda atado por NDA, así que parece poco probable que participe mucha gente más allá de envíos variados generados por LLM

    • Si aunque sea una parte de los participantes usa modelos y prompts más o menos decentes,
      OpenAI también estaría trasladando parte de su costo de análisis a costos de tokens pagados por clientes
    • Sorprende que el monto del bounty sea tan bajo considerando la escala de recursos de OpenAI
      El año pasado una startup cripto que parecía tener entre 5 y 10 millones de dólares de financiamiento abrió un desafío parecido de prompt injection contra los Claude y GPT más recientes, y cuando gané ahí me pagaron bastante más
      Viendo esta recompensa tan baja y el NDA tan estricto, parece más un evento de marketing que un intento serio de atraer bug bounty hunters, porque no quieren pagar mucho ni que se publique la investigación
    • Simplemente parece una versión barata de Kaggle
      da la impresión de que quieren que la gente siga probando cosas, pero evitando la publicación de reportes de resultados o el drama alrededor de quién recibió dinero
    • Este modelo es mucho más potente que gpt-oss-20b
      La competencia del año pasado tampoco era sobre un modelo 120b, ni trataba sobre bio
  • No sé dónde está la lista de preguntas que hay que responder
    Si solo la van a revelar después de ser aceptado, no tiene sentido que en la solicitud te pidan explicar tu enfoque de jailbreak sin que siquiera conozcas las preguntas

    • Es muy probable que las preguntas en sí sean contenido peligroso
      Por ejemplo, algo como "¿cómo montar un pequeño biolaboratorio en tu cocina para investigar virus con 20 mil dólares?",
      o cómo ensamblar la secuencia de ADN de https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1
    • Supongo que si te invitan a esta ronda, entonces te darán las preguntas
      y seguramente ese contenido también quedará cubierto por el NDA
  • La frase trusted bio red-teamers의 검증된 목록에 초대장을 보낸다 da un poco de risa
    suena a un grupo bastante cerrado

    • Es como poner a doctores en ciencias de la computación a hacer un speedrun de récord mundial
      puede que las personas que realmente serían mejores para esto no sean del tipo que termina en esa lista verificada
  • La condición de 25,000달러 para el primer jailbreak verdaderamente universal que pase las cinco preguntas
    hace que este programa parezca casi una estructura engañosa
    aunque 100 personas encuentren un bug, al final solo una recibe el dinero

    • Si además el uso de la API lo pagan los participantes, entonces OpenAI hasta podría terminar ganando dinero con esto
    • No veo por qué eso sería una estafa
      no es como que te den un premio de participación por resolver solo la mitad de un rompecabezas
    • El punto clave no es tanto la estructura de recompensas, sino la puesta en escena de credibilidad
      1. este modelo sería tan avanzado que tendría un riesgo enorme y sin precedentes
      2. por eso ofrecen incentivos responsablemente para resolver ese riesgo
        Pero el punto 1 no está demostrado y, siendo honestos, parece poco probable, así que el 2 también pierde fuerza
        Además, si el premio es tan bajo y la estructura tan restringida, da la impresión de que en realidad no están tan preocupados, aunque sí creen que mucha gente podría encontrar algo
        Si de verdad creyeran que el modelo es increíblemente seguro, habrían asumido que los problemas serían raros pero críticos, y lo natural habría sido ofrecer una gran recompensa sin tope
    • También es sospechoso que sea un programa de bounty privado y que haya que postularse y ser aprobado
      sobre todo si el alcance incluye una app de escritorio que cualquiera puede descargar
    • Eso depende del diseño del programa de bounty
      también hay que pensar cómo evitar que yo encuentre una solución, se la pase a un amigo y que los dos intentemos cobrar el premio
  • Esto se siente un poco a marketing y, en la práctica, se parece a spec work
    además, con el NDA y tanto secretismo, si no ganas, para el participante casi no queda ningún valor por el tiempo invertido
    porque ni siquiera puede publicar los resultados

    • Incluso si te niegan el pago del bounty, parece que igual podrías quedar atado por el NDA
      en ese caso podrían no pagarte y además enterrar el tema, y yo jamás querría aceptar condiciones así
    • Obviamente tiene un componente de marketing
      parece que OpenAI ahora también está adoptando esa narrativa de somos peligrosos que empezó con Anthropic
  • Para quien se pregunte qué son los bio-bugs,
    se trata de lograr que el modelo le dé al usuario instrucciones que ayuden a hacer algo peligroso en el ámbito biológico
    Por ejemplo, puede explicar qué es la ricina, pero no debería responder cómo convertirla en un arma
    la clave es que entregue información accionable que legal y éticamente no debería proporcionar

  • Me cuesta entender la estructura de solicitud y acceso por invitación y de invitaciones solo para bio red-teamers confiables
    el punto central de un programa de bug bounty es incentivar que la gente encuentre vulnerabilidades y las divulgue, pero si pones guardianes de entrada así, las personas no consideradas confiables igual pueden seguir hackeando y tendrán incentivo para venderlo por dinero a actores maliciosos en vez de reportarlo
    Mi empresa anterior también operaba en HackerOne solo por invitación, pero era porque podía haber daños a datos o infraestructura de clientes reales
    existía el riesgo de hacer DDOS, o de usar un exploit que rompiera el aislamiento entre tenants para acceder o borrar datos de otros clientes
    Aquí no parece haber un riesgo de ese tipo, así que no entiendo por qué no dejan participar a cualquiera que legalmente pueda recibir dinero

    • Sí hay una explicación plausible
      si se limita a ciertas personas, se reduce la carga de distinguir si un usuario cualquiera que mete prompts parecidos es un participante del desafío o un actor malicioso real
  • No entiendo qué significa a clean chat without prompting moderation
    ¿qué es exactamente prompting moderation?

    • Se refiere a hacer que intervenga un filtro de moderación durante el chat
      es decir, el objetivo del exploit es evadirlo sin "provocar" que el filtro se active, y aquí prompting no se usa en el sentido técnico de meter texto en el contexto, sino más bien en el sentido común de detonar algo
  • Yo probablemente también podría hacer esto, pero no sé por qué querría ponerme a mí mismo en una lista de personas de riesgo
    El problema mayor es que, aunque bloquearan todos los puntos de falla de GPT-5.5, eso en la práctica es imposible; e incluso si lo lograran, igual se puede destilar lo que se quiera desde un closed model hacia algo de aproximadamente 4b parámetros o menos
    Al final, este tipo de cosas parecen más una puesta en escena para que después, si algo sale mal, reciban menos demandas

    • ¿Cómo se destila desde este tipo de modelos de pesos cerrados?
      casi nunca he oído hablar de ingeniería inversa de modelos de esa forma