Bug bounty biológico de GPT-5.5

(openai.com)

1 puntos por GN⁺ 4 일 전 | 1 comentarios | Compartir por WhatsApp

Se abrió un programa para buscar un jailbreak universal contra GPT‑5.5 con el fin de evaluar las salvaguardas biológicas, logrando que supere las cinco preguntas de bioseguridad
El alcance está limitado a GPT‑5.5 exclusivo de Codex Desktop, y debe lograrse que responda las cinco preguntas con un solo prompt, sin activar moderation, en un chat nuevo
El primer jailbreak universal real que supere las cinco preguntas recibirá 25,000 dólares, y los éxitos parciales podrían recibir premios menores de forma discrecional
Las solicitudes estarán abiertas del 23 de abril de 2026 al 22 de junio de 2026, y las pruebas se realizarán del 28 de abril de 2026 al 27 de julio de 2026; los participantes serán seleccionados mediante una combinación de invitación y revisión de solicitudes
Los participantes aprobados y sus colaboradores necesitarán una cuenta de ChatGPT y firmar un NDA, y todos los prompts, completions, hallazgos y comunicaciones estarán cubiertos por el NDA

Descripción general del programa

Para reforzar las salvaguardas biológicas, se operará un Bio Bug Bounty para GPT‑5.5 y se están recibiendo solicitudes de participantes para encontrar un jailbreak universal que supere las cinco preguntas de bioseguridad
El modelo incluido en el alcance está limitado a GPT‑5.5 exclusivo de Codex Desktop
La tarea consiste en lograr, en un chat nuevo y limpio, sin activar moderation, que un único prompt universal de jailbreak haga que responda con éxito las cinco preguntas de bioseguridad
La recompensa será de 25,000 dólares para el primer jailbreak universal real que supere las cinco preguntas, y los éxitos parciales podrían recibir premios menores a discreción
Las solicitudes comienzan el 23 de abril de 2026 y cierran el 22 de junio de 2026, mientras que las pruebas comienzan el 28 de abril de 2026 y terminan el 27 de julio de 2026
El enfoque combina solicitudes e invitaciones: se enviarán invitaciones a una lista de bio red-teamers de confianza, también se revisarán nuevas solicitudes y luego se incorporará a los participantes seleccionados a la plataforma del bio bug bounty
Todos los prompts, completions, hallazgos y comunicaciones estarán sujetos a NDA

Cómo participar

En la página de solicitud, basta con enviar antes del 22 de junio de 2026 una solicitud breve que incluya nombre, afiliación y experiencia
Los solicitantes aprobados y sus colaboradores deben tener una cuenta existente de ChatGPT para postular y también deberán firmar un NDA
Además del Bio Bounty, también están disponibles Safety Bug Bounty y Security Bug Bounty como otras vías de participación relacionadas con seguridad y protección

1 comentarios

GN⁺ 4 일 전

Comentarios de Hacker News

En la página de bug bounty de OpenAI claramente dice que accounts and billing es una categoría válida,
pero cuando reportaron un bug por el que cualquiera podía elegir cualquier país al suscribirse a ChatGPT para pagar un precio más barato, y además dejar los impuestos en 0% aunque tanto el país del precio elegido como el país de la dirección de facturación tuvieran legalmente impuesto sobre ventas/VAT, les dijeron que estaba fuera de alcance y que no calificaba para bounty
- Tal vez sea porque su objetivo no es maximizar la ganancia por usuario, sino aumentar la cantidad de usuarios
  Netflix tuvo un "problema" parecido, y su acción incluso subía cada vez que había confinamientos
- A estas alturas ya casi no hay razones para confiar en los bug bounty corporativos
  todos buscan cómo zafarse para no pagar, y conviene dejar de esperar que la empresa vaya a tratar con justicia lo que sea que encuentres
El año pasado hicieron un bounty en Kaggle y pagaron un total de 500 mil dólares, además se podían publicar todos los resultados
https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
Esta vez son solo 25 mil dólares y todo queda atado por NDA, así que parece poco probable que participe mucha gente más allá de envíos variados generados por LLM
- Si aunque sea una parte de los participantes usa modelos y prompts más o menos decentes,
  OpenAI también estaría trasladando parte de su costo de análisis a costos de tokens pagados por clientes
- Sorprende que el monto del bounty sea tan bajo considerando la escala de recursos de OpenAI
  El año pasado una startup cripto que parecía tener entre 5 y 10 millones de dólares de financiamiento abrió un desafío parecido de prompt injection contra los Claude y GPT más recientes, y cuando gané ahí me pagaron bastante más
  Viendo esta recompensa tan baja y el NDA tan estricto, parece más un evento de marketing que un intento serio de atraer bug bounty hunters, porque no quieren pagar mucho ni que se publique la investigación
- Simplemente parece una versión barata de Kaggle
  da la impresión de que quieren que la gente siga probando cosas, pero evitando la publicación de reportes de resultados o el drama alrededor de quién recibió dinero
- Este modelo es mucho más potente que gpt-oss-20b
  La competencia del año pasado tampoco era sobre un modelo 120b, ni trataba sobre bio
No sé dónde está la lista de preguntas que hay que responder
Si solo la van a revelar después de ser aceptado, no tiene sentido que en la solicitud te pidan explicar tu enfoque de jailbreak sin que siquiera conozcas las preguntas
- Es muy probable que las preguntas en sí sean contenido peligroso
  Por ejemplo, algo como "¿cómo montar un pequeño biolaboratorio en tu cocina para investigar virus con 20 mil dólares?",
  o cómo ensamblar la secuencia de ADN de https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1
- Supongo que si te invitan a esta ronda, entonces te darán las preguntas
  y seguramente ese contenido también quedará cubierto por el NDA
La frase trusted bio red-teamers의 검증된 목록에 초대장을 보낸다 da un poco de risa
suena a un grupo bastante cerrado
- Es como poner a doctores en ciencias de la computación a hacer un speedrun de récord mundial
  puede que las personas que realmente serían mejores para esto no sean del tipo que termina en esa lista verificada
La condición de 25,000달러 para el primer jailbreak verdaderamente universal que pase las cinco preguntas
hace que este programa parezca casi una estructura engañosa
aunque 100 personas encuentren un bug, al final solo una recibe el dinero
- Si además el uso de la API lo pagan los participantes, entonces OpenAI hasta podría terminar ganando dinero con esto
- No veo por qué eso sería una estafa
  no es como que te den un premio de participación por resolver solo la mitad de un rompecabezas
- El punto clave no es tanto la estructura de recompensas, sino la puesta en escena de credibilidad
  1. este modelo sería tan avanzado que tendría un riesgo enorme y sin precedentes
  2. por eso ofrecen incentivos responsablemente para resolver ese riesgo
    Pero el punto 1 no está demostrado y, siendo honestos, parece poco probable, así que el 2 también pierde fuerza
    Además, si el premio es tan bajo y la estructura tan restringida, da la impresión de que en realidad no están tan preocupados, aunque sí creen que mucha gente podría encontrar algo
    Si de verdad creyeran que el modelo es increíblemente seguro, habrían asumido que los problemas serían raros pero críticos, y lo natural habría sido ofrecer una gran recompensa sin tope
- También es sospechoso que sea un programa de bounty privado y que haya que postularse y ser aprobado
  sobre todo si el alcance incluye una app de escritorio que cualquiera puede descargar
- Eso depende del diseño del programa de bounty
  también hay que pensar cómo evitar que yo encuentre una solución, se la pase a un amigo y que los dos intentemos cobrar el premio
Esto se siente un poco a marketing y, en la práctica, se parece a spec work
además, con el NDA y tanto secretismo, si no ganas, para el participante casi no queda ningún valor por el tiempo invertido
porque ni siquiera puede publicar los resultados
- Incluso si te niegan el pago del bounty, parece que igual podrías quedar atado por el NDA
  en ese caso podrían no pagarte y además enterrar el tema, y yo jamás querría aceptar condiciones así
- Obviamente tiene un componente de marketing
  parece que OpenAI ahora también está adoptando esa narrativa de somos peligrosos que empezó con Anthropic
Para quien se pregunte qué son los bio-bugs,
se trata de lograr que el modelo le dé al usuario instrucciones que ayuden a hacer algo peligroso en el ámbito biológico
Por ejemplo, puede explicar qué es la ricina, pero no debería responder cómo convertirla en un arma
la clave es que entregue información accionable que legal y éticamente no debería proporcionar
Me cuesta entender la estructura de solicitud y acceso por invitación y de invitaciones solo para bio red-teamers confiables
el punto central de un programa de bug bounty es incentivar que la gente encuentre vulnerabilidades y las divulgue, pero si pones guardianes de entrada así, las personas no consideradas confiables igual pueden seguir hackeando y tendrán incentivo para venderlo por dinero a actores maliciosos en vez de reportarlo
Mi empresa anterior también operaba en HackerOne solo por invitación, pero era porque podía haber daños a datos o infraestructura de clientes reales
existía el riesgo de hacer DDOS, o de usar un exploit que rompiera el aislamiento entre tenants para acceder o borrar datos de otros clientes
Aquí no parece haber un riesgo de ese tipo, así que no entiendo por qué no dejan participar a cualquiera que legalmente pueda recibir dinero
- Sí hay una explicación plausible
  si se limita a ciertas personas, se reduce la carga de distinguir si un usuario cualquiera que mete prompts parecidos es un participante del desafío o un actor malicioso real
No entiendo qué significa a clean chat without prompting moderation
¿qué es exactamente prompting moderation?
- Se refiere a hacer que intervenga un filtro de moderación durante el chat
  es decir, el objetivo del exploit es evadirlo sin "provocar" que el filtro se active, y aquí prompting no se usa en el sentido técnico de meter texto en el contexto, sino más bien en el sentido común de detonar algo
Yo probablemente también podría hacer esto, pero no sé por qué querría ponerme a mí mismo en una lista de personas de riesgo
El problema mayor es que, aunque bloquearan todos los puntos de falla de GPT-5.5, eso en la práctica es imposible; e incluso si lo lograran, igual se puede destilar lo que se quiera desde un closed model hacia algo de aproximadamente 4b parámetros o menos
Al final, este tipo de cosas parecen más una puesta en escena para que después, si algo sale mal, reciban menos demandas
- ¿Cómo se destila desde este tipo de modelos de pesos cerrados?
  casi nunca he oído hablar de ingeniería inversa de modelos de esa forma

Bug bounty biológico de GPT-5.5

Descripción general del programa

Cómo participar

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News