Bug bounty biológico de GPT-5.5
(openai.com)- Se abrió un programa para buscar un jailbreak universal contra GPT‑5.5 con el fin de evaluar las salvaguardas biológicas, logrando que supere las cinco preguntas de bioseguridad
- El alcance está limitado a GPT‑5.5 exclusivo de Codex Desktop, y debe lograrse que responda las cinco preguntas con un solo prompt, sin activar moderation, en un chat nuevo
- El primer jailbreak universal real que supere las cinco preguntas recibirá 25,000 dólares, y los éxitos parciales podrían recibir premios menores de forma discrecional
- Las solicitudes estarán abiertas del 23 de abril de 2026 al 22 de junio de 2026, y las pruebas se realizarán del 28 de abril de 2026 al 27 de julio de 2026; los participantes serán seleccionados mediante una combinación de invitación y revisión de solicitudes
- Los participantes aprobados y sus colaboradores necesitarán una cuenta de ChatGPT y firmar un NDA, y todos los prompts, completions, hallazgos y comunicaciones estarán cubiertos por el NDA
Descripción general del programa
- Para reforzar las salvaguardas biológicas, se operará un Bio Bug Bounty para GPT‑5.5 y se están recibiendo solicitudes de participantes para encontrar un jailbreak universal que supere las cinco preguntas de bioseguridad
- El modelo incluido en el alcance está limitado a GPT‑5.5 exclusivo de Codex Desktop
- La tarea consiste en lograr, en un chat nuevo y limpio, sin activar moderation, que un único prompt universal de jailbreak haga que responda con éxito las cinco preguntas de bioseguridad
- La recompensa será de 25,000 dólares para el primer jailbreak universal real que supere las cinco preguntas, y los éxitos parciales podrían recibir premios menores a discreción
- Las solicitudes comienzan el 23 de abril de 2026 y cierran el 22 de junio de 2026, mientras que las pruebas comienzan el 28 de abril de 2026 y terminan el 27 de julio de 2026
- El enfoque combina solicitudes e invitaciones: se enviarán invitaciones a una lista de bio red-teamers de confianza, también se revisarán nuevas solicitudes y luego se incorporará a los participantes seleccionados a la plataforma del bio bug bounty
- Todos los prompts, completions, hallazgos y comunicaciones estarán sujetos a NDA
Cómo participar
- En la página de solicitud, basta con enviar antes del 22 de junio de 2026 una solicitud breve que incluya nombre, afiliación y experiencia
- Los solicitantes aprobados y sus colaboradores deben tener una cuenta existente de ChatGPT para postular y también deberán firmar un NDA
- Además del Bio Bounty, también están disponibles Safety Bug Bounty y Security Bug Bounty como otras vías de participación relacionadas con seguridad y protección
1 comentarios
Comentarios de Hacker News
En la página de bug bounty de OpenAI claramente dice que
accounts and billinges una categoría válida,pero cuando reportaron un bug por el que cualquiera podía elegir cualquier país al suscribirse a ChatGPT para pagar un precio más barato, y además dejar los impuestos en 0% aunque tanto el país del precio elegido como el país de la dirección de facturación tuvieran legalmente impuesto sobre ventas/VAT, les dijeron que estaba fuera de alcance y que no calificaba para bounty
Netflix tuvo un "problema" parecido, y su acción incluso subía cada vez que había confinamientos
todos buscan cómo zafarse para no pagar, y conviene dejar de esperar que la empresa vaya a tratar con justicia lo que sea que encuentres
El año pasado hicieron un bounty en Kaggle y pagaron un total de 500 mil dólares, además se podían publicar todos los resultados
https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
Esta vez son solo 25 mil dólares y todo queda atado por NDA, así que parece poco probable que participe mucha gente más allá de envíos variados generados por LLM
OpenAI también estaría trasladando parte de su costo de análisis a costos de tokens pagados por clientes
El año pasado una startup cripto que parecía tener entre 5 y 10 millones de dólares de financiamiento abrió un desafío parecido de prompt injection contra los Claude y GPT más recientes, y cuando gané ahí me pagaron bastante más
Viendo esta recompensa tan baja y el NDA tan estricto, parece más un evento de marketing que un intento serio de atraer bug bounty hunters, porque no quieren pagar mucho ni que se publique la investigación
da la impresión de que quieren que la gente siga probando cosas, pero evitando la publicación de reportes de resultados o el drama alrededor de quién recibió dinero
La competencia del año pasado tampoco era sobre un modelo 120b, ni trataba sobre bio
No sé dónde está la lista de preguntas que hay que responder
Si solo la van a revelar después de ser aceptado, no tiene sentido que en la solicitud te pidan explicar tu enfoque de jailbreak sin que siquiera conozcas las preguntas
Por ejemplo, algo como "¿cómo montar un pequeño biolaboratorio en tu cocina para investigar virus con 20 mil dólares?",
o cómo ensamblar la secuencia de ADN de https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1
y seguramente ese contenido también quedará cubierto por el NDA
La frase
trusted bio red-teamers의 검증된 목록에 초대장을 보낸다da un poco de risasuena a un grupo bastante cerrado
puede que las personas que realmente serían mejores para esto no sean del tipo que termina en esa lista verificada
La condición de
25,000달러 para el primer jailbreak verdaderamente universal que pase las cinco preguntashace que este programa parezca casi una estructura engañosa
aunque 100 personas encuentren un bug, al final solo una recibe el dinero
no es como que te den un premio de participación por resolver solo la mitad de un rompecabezas
Pero el punto 1 no está demostrado y, siendo honestos, parece poco probable, así que el 2 también pierde fuerza
Además, si el premio es tan bajo y la estructura tan restringida, da la impresión de que en realidad no están tan preocupados, aunque sí creen que mucha gente podría encontrar algo
Si de verdad creyeran que el modelo es increíblemente seguro, habrían asumido que los problemas serían raros pero críticos, y lo natural habría sido ofrecer una gran recompensa sin tope
sobre todo si el alcance incluye una app de escritorio que cualquiera puede descargar
también hay que pensar cómo evitar que yo encuentre una solución, se la pase a un amigo y que los dos intentemos cobrar el premio
Esto se siente un poco a marketing y, en la práctica, se parece a spec work
además, con el NDA y tanto secretismo, si no ganas, para el participante casi no queda ningún valor por el tiempo invertido
porque ni siquiera puede publicar los resultados
en ese caso podrían no pagarte y además enterrar el tema, y yo jamás querría aceptar condiciones así
parece que OpenAI ahora también está adoptando esa narrativa de
somos peligrososque empezó con AnthropicPara quien se pregunte qué son los bio-bugs,
se trata de lograr que el modelo le dé al usuario instrucciones que ayuden a hacer algo peligroso en el ámbito biológico
Por ejemplo, puede explicar qué es la ricina, pero no debería responder cómo convertirla en un arma
la clave es que entregue información accionable que legal y éticamente no debería proporcionar
Me cuesta entender la estructura de
solicitud y acceso por invitacióny deinvitaciones solo para bio red-teamers confiablesel punto central de un programa de bug bounty es incentivar que la gente encuentre vulnerabilidades y las divulgue, pero si pones guardianes de entrada así, las personas no consideradas confiables igual pueden seguir hackeando y tendrán incentivo para venderlo por dinero a actores maliciosos en vez de reportarlo
Mi empresa anterior también operaba en HackerOne solo por invitación, pero era porque podía haber daños a datos o infraestructura de clientes reales
existía el riesgo de hacer DDOS, o de usar un exploit que rompiera el aislamiento entre tenants para acceder o borrar datos de otros clientes
Aquí no parece haber un riesgo de ese tipo, así que no entiendo por qué no dejan participar a cualquiera que legalmente pueda recibir dinero
si se limita a ciertas personas, se reduce la carga de distinguir si un usuario cualquiera que mete prompts parecidos es un participante del desafío o un actor malicioso real
No entiendo qué significa
a clean chat without prompting moderation¿qué es exactamente prompting moderation?
es decir, el objetivo del exploit es evadirlo sin "provocar" que el filtro se active, y aquí prompting no se usa en el sentido técnico de meter texto en el contexto, sino más bien en el sentido común de detonar algo
Yo probablemente también podría hacer esto, pero no sé por qué querría ponerme a mí mismo en una lista de personas de riesgo
El problema mayor es que, aunque bloquearan todos los puntos de falla de GPT-5.5, eso en la práctica es imposible; e incluso si lo lograran, igual se puede destilar lo que se quiera desde un closed model hacia algo de aproximadamente 4b parámetros o menos
Al final, este tipo de cosas parecen más una puesta en escena para que después, si algo sale mal, reciban menos demandas
casi nunca he oído hablar de ingeniería inversa de modelos de esa forma