La IA de frontera rompió el formato de los CTF públicos

(kabir.au)

1 puntos por GN⁺ 2026-05-17 | 1 comentarios | Compartir por WhatsApp

La IA de frontera ha automatizado los retos fáciles e intermedios de los CTF públicos en línea (Capture The Flag), haciendo que el marcador ya no refleje con claridad la habilidad humana en seguridad
El problema no es la asistencia de IA en sí, sino que los modelos ya llegaron al punto de encargarse del razonamiento y de escribir el código de resolución, dejando a la persona solo la tarea de copiar la flag
Desde Claude Opus 4.5 y Claude Code, se volvió fácil levantar agentes por reto usando la API de CTFd para resolver los problemas iniciales, mientras las personas se concentran en los más difíciles
GPT-5.5 Pro ya puede resolver de un solo intento un reto de HackTheBox de dificultad Insane con active leakless heap pwn, así que sale favorecido quien puede pagar el costo de tokens y agentes
Como el marcador público ahora también mide la orquestación de IA y la capacidad de pago, se debilita la escalera del CTF en la que los principiantes mejoraban sus habilidades y ascendían a equipos de mayor nivel

El marcador de los CTF públicos en línea cambió

La IA de frontera rompió el formato de los CTF públicos, y el marcador dejó de medir con claridad la habilidad humana en seguridad
El punto central no es que la IA dé pistas, sino que el modelo hace el razonamiento, escribe el código de resolución y luego solo deja a la persona copiar la flag
Antes, los CTF no eran solo un conjunto de acertijos, sino una escalera para que los principiantes desarrollaran habilidades y avanzaran hacia equipos y competencias de mayor nivel
El rendimiento en los CTF públicos en línea ahora refleja no solo habilidad en seguridad, sino también la disposición a usar modelos de frontera, la configuración de automatización y la capacidad de gastar suficientes tokens
Al formato actual de los CTF públicos en línea le cuesta mantener su papel histórico, y es difícil fingir que no hubo un cambio de fondo

El trasfondo del cambio

Experiencia en CTF y motivo de preocupación
- Comenzó en los CTF en 2021, al entrar a la universidad, y en su primera competencia, el CTF individual de 48 horas HCKSYD, resolvió todo en 2 horas y ganó
- Después ganó varias veces DownUnderCTF, el CTF más grande de Australia, junto con Blitzkrieg, y más tarde se unió al equipo internacional de primer nivel TheHackersCrew
- TheHackersCrew mantuvo posiciones altas de forma constante en CTFTime y con frecuencia estuvo dentro del top 10 mundial en CTF hasta finales de 2025
- El CTF fue lo que lo llevó a amar la seguridad, y también fue una forma de aprender, medirse y conocer a muchas personas a las que respeta
El primer cambio tras GPT-4
- Tras la llegada de GPT-4, una parte importante de los retos CTF de dificultad media pasaron a ser problemas de one-shot, donde bastaba un solo prompt para obtener la solución y la flag
- Se volvió posible pegar un problema de criptografía en ChatGPT y volver 10 minutos después para encontrar la respuesta
- En ese momento, los retos difíciles todavía parecían menos afectados, y se pensaba que el tiempo ahorrado no era suficiente como para arruinar una competencia
- Como los jugadores de CTF siempre han usado herramientas, el problema no era la asistencia de IA en sí, sino si ya se había llegado al punto en que desaparecía el trabajo humano significativo

El cambio de formato provocado por Claude Opus 4.5

Desde Claude Opus 4.5, casi todos los problemas de dificultad media y algunos difíciles ya pueden resolverse con agentes
Claude Code integró todo en CLI y facilitó conectar otras herramientas CLI y MCP, lo que simplificó construir un orquestador que levante una instancia de Claude por reto a través de la API de CTFd
Eso permite usar un sistema para resolver los retos fáciles e intermedios durante la primera hora del torneo, mientras las personas se concentran solo en lo que queda
Un equipo que no use IA ya no está renunciando solo a una comodidad: en la práctica está jugando una versión más lenta de la competencia
Los CTF públicos en línea se transformaron en un juego de automatizar lo más rápido posible los retos fáciles e intermedios, y reservar la mayor atención humana posible para los más difíciles
El marcador empezó a medir, junto con la habilidad en seguridad, y a veces incluso más que eso, la capacidad de orquestación y la disposición a usar modelos de frontera
El leaderboard de CTFTime empezó a sentirse extraño: equipos legendarios que antes estaban siempre arriba aparecen menos, y la actividad de los jugadores también parece haber bajado
Si quienes diseñan retos pasan semanas creando problemas sofisticados para que un agente los resuelva en minutos, también disminuye la motivación de tratar el CTF como una forma de arte

El cambio decisivo después de GPT-5.5

GPT-5.5 y GPT-5.5 Pro parecen estar, según benchmarks, cerca de Claude Mythos, o incluso por encima en el caso de Pro
Estos modelos pueden resolver de un solo intento un problema de HackTheBox de dificultad Insane con active leakless heap pwn
Pueden resolver una gran parte de los problemas que un organizador pequeño de CTF puede crear en la práctica, y al orquestar Pro sobre retos Insane en un CTF de 48 horas, existe una probabilidad real de conseguir la flag antes de que termine la competencia
Como resultado, los CTF públicos adquieren un carácter de pay-to-win
Mientras más tokens se inviertan en la competencia, más rápido se puede avanzar por el marcador
Modelos especializados en ciberseguridad como alias1 de Alias Robotics pasan a ser menos importantes frente a los LLM generales de frontera
La competencia se convierte en una cuestión de quién puede costear suficientes agentes con suficiente contexto y suficiente tiempo
El desempeño en CTF ya no define la habilidad individual como antes, y también pierde fuerza usar resultados de CTF como criterio para contratar personal de seguridad
Como gran parte de la orquestación necesaria para CTF ya es open source o puede construirse con vibe coding, tampoco sirve bien como indicador de habilidad en IA

Daño a la ruta de aprendizaje de los principiantes

El marcador era una escalera de aprendizaje
- El CTF era una escalera donde un principiante resolvía más retos, obtenía mejores posiciones, entraba a mejores equipos y se volvía más competitivo
- Si el marcador público queda dominado por equipos que usan IA, el principiante es desplazado por el uso de IA antes incluso de desarrollar las intuiciones que la IA reemplaza
- Eso es un antipatrón que bloquea el aprendizaje activo, porque lo que realmente enseña es el esfuerzo activo y el choque directo con los problemas
- Aunque alguien se esfuerce de verdad, si la parte alta de la escalera ya está automatizada y el crecimiento visible no aparece, la motivación cae con fuerza
Diferencia entre CTF para principiantes y plataformas de aprendizaje
- Si incluso los CTF para principiantes se convierten en espacios donde la gente pega prompts en silencio para subir en el marcador, a quienes crean retos les conviene más invertir energía en plataformas de aprendizaje
- En plataformas como picoGym y HackTheBox, el valor esperado está en la enseñanza, y el incentivo para que un principiante se engañe a sí mismo es menor que en un marcador público
- Para un principiante, es mejor aprender en picoGym, HackTheBox y otros entornos de laboratorio que competir en un marcador público que finge reflejar crecimiento humano

Los límites de la objeción de “el CTF no está muerto”

La objeción de que la IA no puede resolver todos los problemas y de que todavía existen CTF como DEF CON es parcialmente cierta, pero no responde al punto central
Los problemas más difíciles de las finales de máximo nivel tienen muy pocos participantes, y normalmente el acceso está restringido por clasificatorias que suelen ser más fáciles que la final
Si las clasificatorias colapsan frente a los agentes, entonces disminuye la cantidad de personas realmente capacitadas que llegan a los problemas que todavía resisten a la IA
Un pequeño número de finales de élite no puede salvar el formato público en línea que es el que de verdad juega la mayoría
La idea no es que todos los retos queden resueltos, sino que una parte suficientemente grande del marcador ya está automatizada y por eso perdió el significado que tenía antes

La investigación en seguridad y los CTF competitivos no son lo mismo

Los CTF pueden mostrar técnicas nuevas e interesantes, pero nunca fueron por sí mismos el lugar donde nacían los hallazgos de investigación en seguridad
El hecho de que la IA sea útil en seguridad no implica que deba entrar sin límites en la dinámica competitiva de ese campo
La IA sin restricciones en CTF elimina casi por completo al ser humano del rompecabezas y reduce el arte de la seguridad a prompts
Los LLM seguirán elevando la capacidad en seguridad mientras existan CTF, pero eso no significa que el formato competitivo siga siendo sano
El CTF era una forma de compartir técnicas y empujar los límites de la habilidad humana en seguridad, pero ese propósito se está desnudando

El problema con la analogía del motor de ajedrez

En ajedrez, las computadoras dominan desde hace mucho, pero los motores de ajedrez no se pueden usar durante una partida competitiva
Los motores se usan para análisis, entrenamiento, comentarios y práctica, enriqueciendo el juego alrededor de la competencia sin reemplazar al competidor
Si a todos los ajedrecistas se les diera el mejor motor y se les permitiera usarlo libremente durante la partida, surgirían dudas sobre si eso es justo, entretenido de ver, digno de justificar premios o útil para empujar los límites humanos
Las mismas preguntas aplican al CTF

Por qué es difícil que los organizadores reaccionen

Los organizadores de CTF han intentado técnicas para romper o frenar soluciones con LLM, pero en su mayoría solo generan fricción temporal
Claude Code no se ve afectado de forma significativa por viejos trucos de cadenas de rechazo
Los modelos de frontera están mejorando al detectar prompt injection
Las funciones de búsqueda web debilitan la defensa que daban los problemas basados en técnicas aparecidas después del corte de entrenamiento
Las reglas que prohíben usar LLM suelen ignorarse en eventos públicos en línea y casi no pueden hacerse cumplir
Si se crean problemas normales, los agentes resuelven demasiados; si se crean problemas hostiles a agentes, también tienden a volverse problemas de adivinanza, sobreingeniería o directamente desagradables para humanos
Estas respuestas no son soluciones reales, sino caminos que empeoran el CTF para todos

Los huecos en el “simplemente adáptense”

Si adaptarse significa construir mejores herramientas, los jugadores de CTF ya hacen eso desde hace tiempo
Si adaptarse significa escribir problemas más difíciles, los organizadores también ya lo han intentado
Si adaptarse significa aceptar que el marcador es ahora un benchmark de orquestación de IA, entonces habría que decirlo con honestidad en lugar de fingir que la competencia de antes sigue existiendo
Incluso si se crean problemas de adivinanza o sobreingeniería que los LLM actuales no puedan resolver, no existe una buena ruta para que un jugador aprenda las habilidades necesarias y siga siendo competitivo
Y unos cuantos modelos más adelante, hasta eso podría dejar de tener sentido, porque la velocidad de avance de los LLM en seguridad hace difícil que el diseño de problemas mantenga ventaja por mucho tiempo

Consecuencias en la escena actual del CTF

El leaderboard de CTFTime ya casi no refleja historia ni habilidad humana, y el marcador de 2026 se ve tan distinto a años anteriores que cuesta reconocerlo
Muchos equipos grandes y prestigiosos, incluido TheHackersCrew, han dejado de jugar por completo, juegan con muchos menos integrantes o tienen dificultades para entrar al top 10
El cheating sin regulación aumentó mucho, y algunos buenos CTF como Plaid CTF ya no se realizan
Muchos integrantes del equipo local Emu Exploit sienten lo mismo; son personas que participan de forma constante en el International Cybersecurity Championship, logran resultados de alto nivel en programas de bug bounty, compiten en Pwn2Own y presentan en conferencias como Black Hat
Quienes están perdiendo interés no son espectadores, sino justo el tipo de personas que la escena del CTF solía atraer y retener
Lo que se está perdiendo no es solo el marcador, sino la escalera que iba desde la curiosidad del principiante hasta la competencia de élite, la artesanía del diseño de problemas y la sensación humana de entender algo difícil y resolverlo
Al CTF público en línea actual le cuesta continuar ese legado, y negar el cambio de fondo hace todavía más difícil hablar honestamente de la pérdida

Lo que debería permanecer

Aunque gran parte de lo que rodea a CTF e IA se está comercializando y saliendo de control, el CTF ha tenido un impacto muy positivo en la industria
Gracias al CTF, conoció a muchas personas amables, inteligentes y apasionadas, y vivió la experiencia de problemas bellamente diseñados y soluciones inesperadas e interesantes
La comunidad del CTF fue un gran espacio para aprender, crecer y conectar, y esa parte no debería perderse sin importar hacia dónde vaya la competencia
La comunidad necesita mantenerse unida, sostener la pasión y crear nuevas rutas para seguir aprendiendo
Eventos sociales cercanos al mundo de la seguridad, como SecTalks, conferencias estudiantiles y meetups locales, son buenas formas de mantener la conexión y la participación
Las plataformas de aprendizaje que ofrecen comunidad, como Discord, también son recursos valiosos
Aunque sea difícil encontrar un reemplazo equivalente a lo que existía antes, la comunidad construida alrededor del CTF se vuelve aún más importante ahora que toca encontrar nuevas formas de mantener vivo el espíritu competitivo

1 comentarios

GN⁺ 2026-05-17

Comentarios en Hacker News

Dan ganas de rogar que, cuando usen una sigla por primera vez, al menos la escriban completa una vez. Aunque el 90% de los lectores ya la conozca, el otro 10% lo agradecerá, casi no cuesta nada y además amplía el alcance del texto o de la idea.
La excepción sería cuando la sigla en sí es tan conocida que mucha gente entiende el concepto pero no sabe de qué palabras viene. Recuerdo que una vez, en una capacitación de la empresa, escuché “Border Gateway Protocol”, pensé un segundo y dije “ah, ¿te refieres a BGP?”
- Me pregunto de qué sigla estás hablando. Si es CTF, diría que, igual que BGP, la sigla es más conocida que la forma desarrollada.
  Más en general, no todos los textos están dirigidos a todos los lectores. Si escribes una entrada de blog sobre CTF para gente a la que le gustan los CTF, no hace falta explicar qué es CTF al público objetivo. Al final HN es un sitio de enlaces, pero a veces se parece a estar espiando una conversación ajena y no siempre se obtiene todo el contexto.
- Como ahora mismo es el comentario más votado, lo dejo aquí: CTF significa Capture The Flag.
  En lo personal, creo que nunca había oído que llamaran así a ese concepto usando esas iniciales. Tampoco es que haya sido un tema muy presente a mi alrededor, así que tómalo solo como una observación.
- Creo que muchas siglas no se explican realmente solo con escribir las palabras completas. Hace poco estaba explicando qué era CI y la otra persona preguntó de qué era abreviatura; ahí me di cuenta de que decir Continuous Integration sirve de muy poco para quien intenta entender qué es en realidad CI.
Si sustituyes “CTF” por “preparatoria” o “universidad”, esto pasa a ser una explicación de cómo la educación está sufriendo un colapso lento. Lo único que todavía la salva un poco es que la mayoría sigue exigiendo asistencia presencial.
Parece que ya descubrieron cómo reemplazar a los humanos en un pipeline, pero en educación todavía no. Un LLM puede ser un gran profesor, pero es casi imposible resistir la tentación de decirle “hazlo por mí”.
- Todo lo que he aprendido en los últimos 10 años apunta a que las computadoras no ayudan en absoluto a la educación humana. Recordamos mejor cuando escribimos con pluma y papel, y aprendemos mejor con pizarrones y libros impresos.
  La solución simple es sacar por completo casi toda la computación de la educación. Un composition book azul, un lápiz y un pizarrón son lo que entrenan al ser humano. Las calculadoras pueden ayudar, pero quizá un ábaco sea aún mejor. Frente a la información reciclada que produce la IA, necesitamos personas capaces de pensar críticamente desde primeros principios.
- Estoy haciendo entrevistas para contratar desarrolladores de software, y para evitar trampas convertimos la primera ronda en una entrevista presencial. La diferencia entre quienes aprendieron antes de la IA y quienes aprendieron después es enorme.
  Llegó un desarrollador con 3 años de experiencia y título en software que sin IA no podía ni escribir fizzbuzz.
- ¿Entonces sería algo como “Frontier AI arruinó el formato de la ‘preparatoria’ o la ‘universidad’”?
  En general, el hype alrededor de la IA ya cansa. Por un lado dicen que se abrió una nueva era para la humanidad y que pronto dominará todo el universo; por el otro, que toda la sociedad se está desmoronando.
  En educación en particular, parece que todos levantan las manos y dicen que no se puede hacer nada. La solución es simple: evalúen a los estudiantes con ejecuciones presenciales. Eso es todo. Cualquier otro “colapso de la educación” no se debe a la IA, sino a otras causas.
- ¿Un gran profesor que te da información no confiable con total seguridad?
- Me pareció bastante impactante esta entrevista [0] en el pódcast Oxide & Friends sobre IA en la enseñanza de CS.
  Claro, CS en Brown University no representa a toda la educación, pero igual es una perspectiva interesante.
  [0] Episode webpage: https://share.transistor.fm/s/31855e83
Estoy de acuerdo con la premisa de este texto, pero no dejo de notar algo.
Dice “el problema nunca fue que la IA pudiera ayudar”, y enseguida en las tres oraciones siguientes describe precisamente que el problema es la ayuda de la IA.
“Los equipos que no usaban IA no solo estaban perdiendo comodidad, estaban compitiendo en una versión más lenta de la competencia.”
“CTF no era solo un conjunto de acertijos. Era una escalera.”
“No se afirma que todos los desafíos hayan sido resueltos. La afirmación es...”
“Lo que se perdió no es solo un marcador. Es una escalera hacia ...”
Perdón, pero esto me salta a la vista una y otra vez. ¿Soy solo yo?
Hace poco estaba construyendo una herramienta de ofuscación y le pedía al modelo que desofuscara el código y lo optimizara hacia su forma original; luego seguía mejorando la herramienta de ofuscación hasta que ya no pudiera hacerlo. Lo chistoso es que, después de pasar por ese proceso, terminé también con una herramienta de desofuscación y optimización que probablemente sería más potente que la mayoría de las comerciales.
La solución sería solo hacer los CTF más difíciles, pero ¿a partir de cuándo un CTF se vuelve demasiado difícil? Quizá incluso los CTF “difíciles” son, en el fondo, demasiado “simples”, y por su propia estructura terminan reduciéndose a cadenas de razonamiento y búsqueda exhaustiva hacia una respuesta. También hay un límite en las formas de esconder una solución a plena vista.
O tal vez la creatividad humana ya se agotó y no era tan infinita como pensábamos. Solo el tiempo lo dirá.
También se me ocurrió otra idea: esconder dos flags, pero hacer que una solo pueda encontrarla un agente de IA y no un humano ni una herramienta hecha por humanos.
- Qué interesante. Hace poco hice casi exactamente lo mismo. Para llevar al límite una herramienta de ofuscación de JS, hacía que gpt/claude desofuscaran una y otra vez la salida final, y luego usaba gpt para mejorar la herramienta hasta romper esa desofuscación.
  ¿Lo publicaste en algún lado? Aquí tengo un ejemplo de salida de mi herramienta de ofuscación de JS: https://gist.github.com/Trung0246/c8f30f1b3bb6a9f57b0d9be94d...
- Algunas cosas podrían requerir desdoblamiento astral, y las computadoras no pueden hacer eso. O quizá bastaría con meter minijuegos de VR, como siempre imaginaban en los 90.
Entiendo la sensación de este texto. Para mí, la IA arruinó tanto jugar CTF como crear desafíos de CTF.
Lo más molesto es la actitud de “no entiendo bien qué pasó, pero aquí está la flag”.
Antes, cuando hacía CTF con amigos, podíamos pasarnos horas peleando con un solo desafío, hasta que llegaba otro amigo, lo veíamos entre todos y lo resolvíamos en 30 minutos; esa era de las experiencias de aprendizaje más gratificantes. Ahora llega un amigo, se lo avienta a clanker y lo resuelve en 5 minutos. Si le preguntas cómo funcionó, siempre responde algo como “no sé qué hizo, pero a quién le importa, aquí está la flag”.
Al crear desafíos pasa lo mismo. Si pides una explicación o preguntas si alguien lo resolvió de otra manera, normalmente te responden “ni idea, lo resolvió clanker”, y se pierde la gracia.
Por eso creo que este formato de CTF sí está muerto. La razón principal es lo competitivo que es y que hay premios de por medio. Esa estructura empujó a la gente a resolver los desafíos con atajos, y antes resolver algo de una manera rara podía ser un momento de creatividad y estaba bien. Pero ahora, por culpa de la IA, ya no hacen falta ni cerebro, ni atajos, ni humanos. Como decía el texto, es una estructura de pagar para ganar.
Yo creo que los CTF 24/7 van a recibir más atención. Ahí el marcador no importa y no hay premios.
Como comentario meta, este texto se envió originalmente con el título “The CTF scene is dead” y se entendía muy fácil. Pero justo ahora lo cambiaron por la primera oración del subtítulo, “Frontier AI has broken the open CTF format”, y ahora es mucho más difícil de captar. Se lee casi como una garden-path sentence.
Al principio pensé que “Frontier” era el nombre de una empresa y que CTF era un formato de archivo. Si no conoces las competencias Capture The Flag, este cambio no ayuda. Y si sí las conoces, diría que incluso empeora el título.
- No sé si sirva, pero a mí el segundo título me resulta mucho más claro, menos clickbait y más informativo. Sí estoy de acuerdo en que puede confundir, pero eso se arreglaría escribiendo “frontier AI models have”, porque frontier es un término muy usado en este campo.
- De acuerdo. Me tomó un momento entenderlo. Creo que porque es la primera vez que veo “frontier models” expresado como Frontier AI. Sobre todo porque la F está en mayúscula, suena como nombre de empresa.
- El Frontier de “Frontier Model” es vocabulario legítimo que para 2026 probablemente ya convenga conocer. No es una palabra inventada por el autor ni una elección arbitraria, sino una expresión común en este ámbito.
- En ninguna parte del texto definieron CTF, y en los comentarios principales aquí tampoco. Por eso lo pasé de largo.
  La regla básica es definir todas las siglas la primera vez que se usan.
- ¿Por qué la gente siempre secuestra los hilos para hablar del título? La mayoría de los títulos son malísimos. Solo den downvote y sigan de largo.
Esto también está pasando en otras formas de programación competitiva. Las IA más recientes ya tienen capacidad de resolver problemas al nivel de los mejores humanos, y si no se puede prohibir fácilmente la IA, la competencia terminará dominada por agentes de IA.
Pensé que en code golf tardaría más, porque hay muy pocos datos de entrenamiento. Es un nicho más pequeño. Pero incluso ahí la IA está empezando a igualar a los expertos humanos. Y me da pena, porque golf es mi tipo favorito de rompecabezas de programación.
De verdad sorprende lo lejos que ha llegado la capacidad de resolución de problemas de la IA.
https://en.wikipedia.org/wiki/Capture_the_flag_(cybersecurit...
Todavía no menciona la IA, pero si la IA sigue dominando cada vez más estas competencias, probablemente pronto cambie.
- Usar IA en un CTF es como usar un auto para volverte bueno en los 100 metros planos.
No es algo exclusivo de CTF. De verdad creo que en game jams como Ludum Dare o en hackatones, el rol del programador está prácticamente acabado.
En la escena de programación competitiva siempre ha habido torneos presenciales, y después de la IA su importancia es todavía mayor. De hecho, incluso antes ya solían ser más justos. Si los CTF quieren sobrevivir, probablemente tendrán que adoptar esa estrategia.
Incluso se podría permitir cualquier cosa que ya esté cargada en la computadora, pero no más que eso. Por ejemplo, en algunas competencias de programación se permite llevar material en papel sin límite. En CTF seguramente haría falta mucho más que eso, así que sería necesario permitir materiales electrónicos.

La IA de frontera rompió el formato de los CTF públicos

El marcador de los CTF públicos en línea cambió

El trasfondo del cambio

Experiencia en CTF y motivo de preocupación

El primer cambio tras GPT-4

El cambio de formato provocado por Claude Opus 4.5

El cambio decisivo después de GPT-5.5

Daño a la ruta de aprendizaje de los principiantes

El marcador era una escalera de aprendizaje

Diferencia entre CTF para principiantes y plataformas de aprendizaje

Los límites de la objeción de “el CTF no está muerto”

La investigación en seguridad y los CTF competitivos no son lo mismo

El problema con la analogía del motor de ajedrez

Por qué es difícil que los organizadores reaccionen

Los huecos en el “simplemente adáptense”

Consecuencias en la escena actual del CTF

Lo que debería permanecer

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News