- Combina en un solo modelo el rendimiento de programación de GPT-5.2-Codex y las capacidades de razonamiento y conocimiento especializado de GPT-5.2, ofreciendo una velocidad 25% mayor
- Amplía el alcance de trabajo agéntico de Codex hasta las tareas de larga duración e integra en la app de Codex una colaboración interactiva en tiempo real que permite cambiar de dirección y reflejar feedback incluso a mitad del trabajo
- Es el primer modelo que participa en su propio desarrollo cuyo primer prototipo se utilizó directamente para depurar su proceso de entrenamiento, gestionar despliegues y diagnosticar evaluaciones
- Logra el mejor rendimiento de la industria en benchmarks clave como SWE-Bench Pro, Terminal-Bench 2.0 y OSWorld, funcionando además con menos tokens que el modelo anterior
- Más allá de escribir código, respalda el trabajo de conocimiento a lo largo de todo el ciclo de vida del software, incluyendo presentaciones, hojas de cálculo y análisis de datos
Resumen general
- GPT-5.3-Codex es “el modelo de programación agéntica más capaz”
- Combina en un solo modelo el rendimiento frontier de programación de GPT-5.2-Codex con las capacidades de razonamiento y conocimiento especializado de GPT-5.2, mejorando la velocidad en un 25%
- Está diseñado para realizar tareas de larga duración que incluyen investigación, uso de herramientas y ejecución compleja, y puede coordinarse sin perder el contexto incluso durante el trabajo
- Participó en su propio entrenamiento, despliegue y diagnóstico de evaluaciones usando versiones iniciales, convirtiéndose en el primer modelo que “aceleró su propio desarrollo”
- Amplía el papel de Codex desde “escritura y revisión de código” hacia “casi cualquier tarea que desarrolladores y especialistas realizan en una computadora”
Capacidades agénticas frontier
-
Rendimiento de programación
- Alcanzó el mejor rendimiento en SWE-Bench Pro (evaluación de ingeniería de software real). A diferencia de SWE-Bench Verified, que solo prueba Python, este benchmark cubre 4 lenguajes, ofrece mayor resistencia a contaminación y tiene una mayor relación con la industria
- En Terminal-Bench 2.0 también superó ampliamente el mejor rendimiento previo, midiendo habilidades de terminal necesarias para agentes de programación
- Puede realizar la misma tarea con menos tokens que los modelos anteriores
-
Desarrollo web
- Gracias a la combinación de capacidades frontier de programación, mejoras en sensibilidad estética y técnicas de compresión, puede construir juegos y apps complejos desde cero a lo largo de varios días
- Para probar desarrollo web y capacidades agénticas de larga duración, se crearon dos juegos: uno de carreras y otro de buceo
- Juego de carreras: varios corredores, 8 mapas e ítems que se usan con la barra espaciadora
- Juego de buceo: exploración de distintos arrecifes, colección de una enciclopedia de peces y gestión de oxígeno, presión del agua y peligros
- Usando la skill "develop web game" y prompts de seguimiento genéricos predefinidos como "fix the bug" y "improve the game", iteró mejoras de forma autónoma a lo largo de millones de tokens
- Al crear sitios web cotidianos, entiende mejor la intención del usuario que GPT-5.2-Codex y aplica automáticamente más funciones y valores predeterminados razonables incluso con prompts simples o insuficientes
- En un ejemplo comparando landing pages, GPT-5.3-Codex mostraba automáticamente el plan anual como un precio mensual con descuento y generaba un carrusel automático de recomendaciones de conversión con 3 testimonios de usuarios, entregando un resultado más completo
-
Capacidades fuera de la programación
- Respalda todo el ciclo de vida del software, incluyendo depuración, despliegue, monitoreo, redacción de PRD, edición de textos, investigación de usuarios, pruebas y análisis de métricas, tareas que realizan ingenieros de software, diseñadores, product managers y científicos de datos
- También se extiende a ámbitos fuera del software, como creación de presentaciones y análisis de datos en hojas de cálculo
- Logró 70.9% en GDPval (evaluación que mide tareas de trabajo de conocimiento bien definidas en 44 ocupaciones), igualando a GPT-5.2
- Incluye entregables de trabajo real como presentaciones y hojas de cálculo
- Se muestran ejemplos de entregables como diapositivas de asesoría financiera, documentos de capacitación minorista, hojas de cálculo de análisis de NPV y PDFs de presentaciones de moda
- Logró 64.7% en OSWorld-Verified (benchmark de uso agéntico de computadoras para tareas de productividad en entornos de escritorio visuales), un gran salto frente a modelos GPT previos (38.2%)
- La puntuación humana es de alrededor de 72%
Colaborador interactivo
- A medida que aumentan las capacidades del modelo, el reto central se desplaza desde lo que puede hacer un agente hacia qué tan fácilmente un humano puede dirigir y supervisar múltiples agentes trabajando en paralelo
- La app de Codex facilita la gestión y las instrucciones para agentes, y con GPT-5.3-Codex ofrece mayor interactividad
- Durante el trabajo, actualiza con frecuencia las decisiones clave y el progreso para que el usuario pueda hacer preguntas en tiempo real, discutir enfoques y ajustar la dirección sin esperar al resultado final
- Explica lo que está haciendo, responde al feedback y mantiene al usuario dentro del ciclo de principio a fin
- Ruta de configuración: Settings > General > Follow-up behavior para activar la dirección del modelo durante el trabajo
Entrenamiento y despliegue de GPT-5.3-Codex usando Codex
- Las mejoras rápidas recientes de Codex se construyen sobre proyectos de investigación de meses a años en toda OpenAI
- Muchos investigadores e ingenieros de OpenAI describen que su forma de trabajar hoy es fundamentalmente distinta a la de hace 2 meses
- Las primeras versiones de GPT-5.3-Codex ya mostraban capacidades notables, por lo que el equipo usó esas versiones iniciales para apoyar mejoras de entrenamiento y despliegue de versiones posteriores
-
Casos de uso del equipo de investigación
- Se usó Codex para el monitoreo y la depuración de ejecuciones de entrenamiento de este lanzamiento
- Más allá de depurar problemas de infraestructura, se construyeron aplicaciones ricas para rastrear patrones en todo el proceso de entrenamiento, analizar en profundidad la calidad de la interacción, proponer correcciones e identificar con precisión diferencias de comportamiento respecto a modelos previos
-
Casos de uso del equipo de ingeniería
- Se usó Codex para la optimización y adaptación del harness de GPT-5.3-Codex
- Cuando surgían edge cases extraños que afectaban a usuarios, Codex ayudó a identificar bugs de renderizado de contexto y analizar la causa raíz de una baja tasa de aciertos de caché
- Durante el lanzamiento, se siguió usando para responder a picos de tráfico mediante escalado dinámico de clústeres GPU y estabilización de latencia
-
Casos de uso en pruebas alfa
- Un investigador quiso entender cuánto trabajo adicional realiza GPT-5.3-Codex por turno y qué diferencia de productividad genera
- GPT-5.3-Codex ideó varios clasificadores simples con expresiones regulares para estimar la frecuencia de preguntas de aclaración, respuestas positivas y negativas, y el progreso de tareas; luego los ejecutó a gran escala sobre logs completos de sesión y generó un informe de conclusiones
- Las personas que construían con Codex mostraron mayor satisfacción, y el agente entendía mejor la intención, mostraba más avance por turno y hacía menos preguntas de aclaración
-
Construcción de pipelines de datos
- Los datos de pruebas alfa eran muy distintos de los del modelo anterior, lo que produjo muchos resultados anómalos y contraintuitivos
- Científicos de datos construyeron junto con GPT-5.3-Codex nuevos pipelines de datos y realizaron visualizaciones mucho más ricas que con herramientas estándar de dashboards
- Analizando los resultados junto con Codex, resumieron los insights clave de miles de puntos de datos en menos de 3 minutos
Asegurar la frontera de la ciberseguridad
- En los últimos meses, el rendimiento del modelo en tareas de ciberseguridad ha mejorado de forma significativa, beneficiando tanto a desarrolladores como a profesionales de seguridad
- En paralelo, se prepararon salvaguardas reforzadas de ciberseguridad para apoyar usos defensivos y una mayor resiliencia del ecosistema
- Bajo el Preparedness Framework, es el primer modelo clasificado con nivel High en tareas relacionadas con ciberseguridad, y también el primero entrenado directamente para identificar vulnerabilidades de software
- No existe evidencia concluyente de que pueda automatizar ataques cibernéticos de punta a punta, pero se adopta un enfoque preventivo y se despliega la pila de seguridad de ciberseguridad más completa hasta la fecha
- Incluye entrenamiento de seguridad, monitoreo automatizado, acceso basado en confianza a funciones avanzadas y pipelines de cumplimiento con inteligencia de amenazas
- Considerando la naturaleza inherentemente de doble uso de la ciberseguridad, se adopta un enfoque iterativo basado en evidencia que acelera la capacidad de los defensores para descubrir y corregir vulnerabilidades mientras retrasa el uso indebido
-
Programa de investigación defensiva y protección del ecosistema
- Se lanza el programa piloto Trusted Access for Cyber con el objetivo de acelerar la investigación en defensa cibernética
- Se amplía la beta privada del agente de investigación de seguridad Aardvark, la primera oferta de la familia de productos Codex Security
- En colaboración con maintainers de open source, se ofrece escaneo gratuito de codebases para proyectos ampliamente usados (por ejemplo, Next.js)
- Investigadores de seguridad usaron Codex para descubrir vulnerabilidades divulgadas la semana pasada (CVE-2025-59471, CVE-2025-59472)
- Sobre la base del programa de subvenciones de ciberseguridad de 1 millón de dólares lanzado en 2023, se suman 10 millones de dólares en créditos API para acelerar la defensa cibernética con los modelos más potentes
- Especialmente para software open source y sistemas de infraestructura crítica
- Las organizaciones que participan en investigación de seguridad de buena fe pueden solicitar créditos API y soporte a través del Cybersecurity Grant Program
Disponibilidad y detalles
- GPT-5.3-Codex está disponible en los planes pagos de ChatGPT y puede usarse en todos los lugares donde Codex es compatible (app, CLI, extensión de IDE y web)
- El acceso por API se está preparando para habilitarse de forma segura
- Gracias a mejoras en la infraestructura y la pila de inferencia, opera con una velocidad 25% mayor para usuarios de Codex, ofreciendo interacciones y resultados más rápidos
- Co-diseñado, entrenado y servido en sistemas NVIDIA GB200 NVL72
Próxima dirección
- Codex avanza más allá de escribir código, usando el código como herramienta para operar computadoras y completar tareas de principio a fin
- Al expandir la frontera de los agentes de programación, libera no solo la construcción y el despliegue de software, sino también áreas más amplias de trabajo de conocimiento como investigación, análisis y ejecución de tareas complejas
- Partiendo del mejor agente de programación, evoluciona hacia un colaborador general sobre la computadora, ampliando qué se puede construir y quién puede construirlo
Appendix: cifras de benchmark
- Todas las evaluaciones se ejecutaron con xhigh reasoning effort
- SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
- Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
- OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
- GDPval (victoria o empate): GPT-5.3-Codex 70.9% / GPT-5.2 70.9% (high)
- Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
- SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%
2 comentarios
Antes prefería más a Claude, pero últimamente Codex me convence más. Espero que evolucionen de forma complementaria, como iOS y AOS.
Opiniones en Hacker News
Es interesante que GPT‑5.3 Codex y Opus 4.6 estén evolucionando en direcciones filosóficamente distintas
Codex parece diseñado como un colaborador interactivo donde el humano interviene durante el proceso, mientras que Opus apunta a ser un sistema más autónomo y planificado que minimiza la intervención humana
Esto parece reflejar dos formas en que los desarrolladores reales ven la programación con LLM: control centrado en el humano vs delegación total
Da curiosidad si los modelos seguirán optimizándose según esta división filosófica, o si aparecerán enfoques nuevos
Codex tiende a pensar mucho más tiempo antes de dar una respuesta
Si el humano está dentro del ciclo, se pueden evitar la mayoría de los problemas de los LLM, y revisar en unidades pequeñas de código es eficiente
Si Codex se encarga del trabajo repetitivo, el desarrollador puede concentrarse en la lógica central
El enfoque totalmente autónomo degrada la calidad del código a largo plazo, así que no sirve para codebases grandes
Le lanzabas una solicitud, corría automáticamente en un entorno de contenedor y luego solo se podía dar seguimiento por chat
Codex parece cada vez más autónomo, y Opus más colaborativo
Al final, probablemente ambos enfoques sean útiles según el contexto
Por eso la versión 5.2 me pareció más estable que Opus 4.5
Parece que Anthropic se apresuró a lanzar Opus 4.6 para evitar comparaciones con GPT‑5.3‑Codex
En Terminal‑Bench 2.0, Opus 4.6 tiene 65.4 y GPT‑5.3‑Codex 77.3
Aun así, Codex 5.2 fue el mejor en tareas complejas, así que tengo expectativas por 5.3
GPT‑5.2 Codex salió en $3244 y Claude Opus 4.5 en alrededor de $1485
Viendo los resultados de ARC AGI 2, da la impresión de que le falta generalización
Me genera dudas la idea de que Claude tenga ventaja en programación
Me impresionó que GPT‑5.3‑Codex fuera el primer modelo usado para ayudar a desarrollar a sí mismo
Dicen que el equipo de Codex depuró su propio pipeline de entrenamiento con una versión temprana
Creo que Claude Code también creció gracias a esa cultura de dogfooding
Esto hace replantearse si un “soft take‑off” podría ser posible
GPT‑5.3‑Codex fue clasificado como un modelo de alta capacidad para tareas relacionadas con ciberseguridad
Fue entrenado directamente para detectar vulnerabilidades, pero todavía no hay evidencia de automatización completa de ataques
Aun así, el framework de seguridad me parece anticuado
En adelante, el propio código escrito por Codex podría convertirse en una nueva superficie de ataque para amenazas de seguridad
Codex debería estar diseñado para generar código seguro por defecto
Artículo relacionado: cobertura de NBC News
Igual que Anthropic, se siente como una forma de presumir capacidad técnica bajo el empaque de “investigación de seguridad”
Da curiosidad si este tipo de errores va a seguir pasando
Antes los laboratorios de AI coordinaban para evitar anuncios simultáneos,
y ahora compiten anunciando cosas con 30 minutos de diferencia
Demis será débil para la pelea política, pero probablemente compita con rendimiento
Elon, Sam y Dario ya son hábiles en las maniobras políticas
2026 parece que será un año dramático para la industria de AI
Cuando OpenAI anunciaba a las 10, Anthropic y Google hacían lanzamientos de respuesta
Me llamó la atención el anuncio de que GPT‑5.3‑Codex mejoró de forma autónoma un juego web
Pero fue una pena que no publicaran la cantidad de prompts ni de tokens de la comparación experimental
Me gustaría compararlo con este clon web de Factorio que hice antes
No sabía que se podían usar modelos de esa manera
Llevo años escuchando eso de “100x más productividad” con AI
Pero me pregunto si existe algún programa nuevo y confiable hecho principalmente por LLM
Los LLM solo aceleran la resolución de problemas existentes, no resuelven problemas completamente nuevos
Por ejemplo, Gemini me ayudó bastante al proponer un enfoque basado en coordenadas polares para un problema de disposición de tarjetas UI
Tal vez no sea 100x, pero sí siento una mejora de productividad de 2x
Hilo relacionado: caso de vibe coding
Así que la crítica de que “solo resuelve problemas ya resueltos” no significa mucho
y tres veces alucinó flags que no existían
ChatGPT 5.2 también necesitó varias correcciones para hacer un script de ffmpeg
El día que maneje bien los saltos de línea en Windows, tal vez eso sí sea AGI
Que una codebase sea grande es solo una limitación temporal
Suena más a queja de gente que no soporta el progreso
Resultados de Terminal Bench 2.0
Más que el puntaje, importa la “sensación” de la experiencia real programando
Me pregunto si los desarrolladores se sienten amenazados por este cambio
Yo sinceramente diría que sí
Para programadores competitivos sería una amenaza, pero para desarrolladores comunes menos
Hasta que llegue la AGI, no creo que la automatización total sea posible
A mi alrededor hay muchos más usuarios de Claude que de Codex
Pero Codex es mucho más generoso en límites de uso y planes de pago
Incluso usándolo varios meses con el plan de $20, casi nunca llegas al límite
Siento que esta diferencia práctica importa más que la calidad del coding
Antes Claude era mejor en GH Copilot,
pero Codex tiene más autonomía, así que encaja mejor con el vibe‑coding,
y parece que ganó usuarios por el efecto de promoción en Twitter, LinkedIn y otros lados
Si no notas diferencia de calidad, obviamente eliges la opción más barata
También se puede cambiar de plan libremente, así que la experiencia de uso es muy satisfactoria