- Modelo de codificación agéntica enfocado en tareas complejas de desarrollo del mundo real y optimizado para el entorno de Codex
- En trabajos de larga duración, mantiene el contexto mediante compresión de contexto y se vuelve más sólido ante cambios grandes como refactorizaciones y migraciones
- En entornos nativos de Windows, mejora el rendimiento general y refuerza las capacidades de visión para ayudar a interpretar capturas de pantalla, planos, gráficos e interfaces
- Alcanzó rendimiento de primer nivel en SWE-Bench Pro y Terminal-Bench 2.0
- Introduce un esquema de despliegue que eleva de forma importante las capacidades de ciberseguridad con fines defensivos, al tiempo que considera el riesgo de uso indebido mediante acceso prioritario para usuarios de pago y un enfoque basado en la confianza
Resumen general
- Se presenta GPT-5.2-Codex, un modelo diseñado para tareas complejas de ingeniería de software del mundo real
- Basado en GPT-5.2 y optimizado para trabajo de codificación agéntica en el entorno de Codex
- Ofrece rendimiento estable en trabajos prolongados gracias a la compresión de contexto y refuerza su capacidad para cambios de código a gran escala
- También mejora el rendimiento general en entornos Windows y fortalece sus capacidades de ciberseguridad
Expandir los límites de la ingeniería de software
- Modelo desarrollado a partir de la fortaleza de GPT-5 en tareas basadas en conocimiento especializado y del rendimiento de GPT-5.1-Codex-Max en codificación agéntica y uso de terminal
- Su objetivo es actuar como un socio confiable en sesiones largas de programación, apoyándose en comprensión de contexto a largo plazo, estabilidad en llamadas a herramientas, mejoras de precisión y compactación nativa
- También incorpora una orientación para mantener la eficiencia de tokens durante el proceso de razonamiento
- El refuerzo del rendimiento de visión mejora la precisión al interpretar capturas de pantalla, planos técnicos, gráficos y pantallas de UI compartidos durante sesiones de programación
- Basado en las funciones introducidas en GPT-5.1-Codex-Max, permite realizar codificación agéntica de forma más efectiva y estable también en Windows nativo
Rendimiento en benchmarks
- Alcanzó rendimiento de primer nivel en SWE-Bench Pro y Terminal-Bench 2.0
- SWE-Bench Pro evalúa la generación de parches que resuelven tareas realistas de ingeniería de software a partir de un repositorio de código proporcionado
- Terminal-Bench 2.0 prueba el rendimiento de agentes de IA en un entorno de terminal real e incluye compilación de código, entrenamiento de modelos y configuración de servidores
Ciberseguridad en el mundo real
- Una ciberseguridad sólida es esencial para proteger sistemas críticos y datos sensibles en la sociedad moderna
- Las vulnerabilidades pueden permanecer ocultas durante mucho tiempo, y los procesos de descubrimiento, verificación y corrección dependen en gran medida de ingenieros con herramientas y de la comunidad independiente de investigadores de seguridad
- En el caso del 11 de diciembre de 2025, cuando el equipo de React reveló tres vulnerabilidades de seguridad que afectaban a aplicaciones basadas en React Server Components, llamó la atención no solo la vulnerabilidad en sí, sino también el proceso de descubrimiento
-
Caso de descubrimiento de vulnerabilidades en React
- Andrew MacPherson, investigador de seguridad en Privy, una filial de Stripe, realizó el análisis de React2Shell usando GPT-5.1-Codex-Max en Codex CLI
- Utilizó Codex en un flujo estándar de trabajo de seguridad que incluyó configuración de un entorno local de pruebas, análisis de superficie de ataque y fuzzing basado en entradas anómalas
- Durante la reproducción de React2Shell se detectó un comportamiento inesperado, lo que llevó en una semana al hallazgo de tres vulnerabilidades previamente desconocidas
- Las vulnerabilidades descubiertas se divulgaron al equipo de React de manera responsable
- También se compartió la sesión de Codex como un caso que muestra cuánto puede acortarse el proceso de verificación de vulnerabilidades por parte de investigadores de seguridad
Capacidades de ciberseguridad en continua evolución
- Desde GPT-5-Codex, las capacidades de ciberseguridad comenzaron a mejorar significativamente; hubo un gran salto en GPT-5.1-Codex-Max y también se observan mejoras claras en GPT-5.2-Codex
- Se espera que los modelos futuros sigan la misma tendencia, y ya se están realizando planes y evaluaciones bajo la premisa de que podrían alcanzar el nivel “alto” de capacidades de ciberseguridad dentro del marco de evaluación de preparación
- GPT-5.2-Codex todavía no llega al nivel “alto”, pero se mantiene la preparación pensando incluso en modelos futuros que superen ese umbral
Conclusión
- GPT-5.2-Codex muestra una tendencia en la que se amplía la forma en que la IA avanzada contribuye a la ingeniería de software y la ciberseguridad
- Al mismo tiempo que ayuda a desarrolladores y responsables de seguridad a resolver desafíos complejos y de largo plazo, también fortalece aún más las herramientas para la investigación de seguridad responsable
1 comentarios
Comentarios en Hacker News
Si alguien de OpenAI está viendo esto, por favor no toquen la capacidad de razonamiento (reasoning)
Codex es realmente excepcional para encontrar bugs e inconsistencias en código o matemáticas
Si Claude Code es fuerte en la “generación de código”, Codex/GPT5.x es abrumadoramente mejor detectando problemas
Creo que la calidad importa más que la velocidad
Al principio desconfiaba de Codex, pero ahora empiezo todo trabajo de programación con Codex
No es perfecto, pero da resultados sorprendentes en refactorización, al arrancar proyectos nuevos o al trabajar con tecnologías desconocidas
En particular, ayuda a reducir la procrastinación. Incluso si una tarea grande se siente abrumadora, si se la pasas a Codex te genera un buen punto de partida
Codex 5.2 mejoró mucho en calidad, y ahora le dejo la escritura del código como tal
Si además lo usas para planear y discutir el diseño, casi deja de haber razones para escribir código uno mismo
Al final, es interesante lo difícil que resulta hacer una evaluación objetiva del rendimiento
Pero la velocidad del ciclo de retroalimentación es clave. Cuanto más rápido compilen el build y las pruebas, más eficientes son las herramientas de programación tipo agente
Instrucciones claras como Agents.md ayudan mucho
Después de pasarme de Claude Code a Codex CLI, armé un entorno de ejecución de Codex basado en contenedores
Puede ejecutarse de varias formas: temporizadores, disparadores por archivos, llamadas API, modo CLI, etc.
codex-container incluye más de 300 herramientas MCP
Soporta muchas funciones, como crawling, búsqueda en Google, Gmail/GCal/GDrive, Slack, embeddings y transcripción
Las tareas peligrosas desde el punto de vista de seguridad se prueban de forma segura mediante aislamiento en contenedores
También permite crawling con navegador headless usando gnosis-crawl
En mi experiencia, los modelos GPT son mucho más adecuados que Claude para desarrollo backend
Son más lentos, pero su lógica es más clara y el mantenimiento resulta mejor
Yo sigo el patrón de planear con Claude, ejecutar con Codex y luego volver a Claude para la revisión de código
Ojalá Codex CLI se actualizara en homebrew al mismo tiempo que en npm
Claude todavía mete demasiado relleno innecesario (fluff) y sobrediseña
Claude señala cosas menores, pero Codex encuentra los problemas que de verdad importan
Desde el punto de vista de seguridad, me decepciona que los modelos de OpenAI restrinjan demasiado el trabajo ofensivo (offensive)
Creo que para defenderse hace falta cierto nivel de simulación ofensiva
Me parece razonable permitir el acceso solo a expertos de confianza
Es interesante que hayan puesto “ciberseguridad” al frente
La automatización del análisis de seguridad ya pasó el punto crítico, y creo que automatizar el trabajo repetitivo importa más que el avance del modelo en sí
La mayor parte del análisis de vulnerabilidades consiste en tareas simples que pueden automatizarse, y al eliminarlas los humanos pueden concentrarse en el análisis creativo
Para mí, Codex siempre rinde peor que el modelo base
En la CLI intenta escribir código demasiado rápido
Aunque solo le haga una pregunta, trata de modificar archivos, lo cual es incómodo
Por ahora se puede controlar un poco si le pides que solo modifique archivos .md
Me parece razonable la política de permitir por invitación el acceso a modelos para investigación de seguridad
Si la “alineación de seguridad” es excesiva, puede reducir la capacidad de análisis de seguridad
Si solo se exige un proceso KYC, sería posible obtener resultados positivos de investigación y al mismo tiempo reducir la exposición al riesgo
El riesgo de “doble uso (dual-use)” no significa tanto nuevas técnicas de ataque, sino bajar la barrera de ejecución
La misma función puede ayudar a los defensores a analizar vulnerabilidades, pero también convertirse en una herramienta de ataque automatizado para los atacantes
Por eso son importantes el control de despliegue y el logging
Probé GPT‑5.1 con el plugin de Codex para VSCode, y fue una experiencia realmente mágica
En 5.2 todavía no noto una gran diferencia, pero creo que sería aún mejor si ampliaran las funciones al nivel de Cursor o Kilo Code
Antes pensaba que OpenAI se había quedado atrás, pero 5.1 es muy superior a Gemini