Lanzamiento de GPT-5.3-Codex

(openai.com)

7 puntos por GN⁺ 2026-02-06 | 2 comentarios | Compartir por WhatsApp

Combina en un solo modelo el rendimiento de programación de GPT-5.2-Codex y las capacidades de razonamiento y conocimiento especializado de GPT-5.2, ofreciendo una velocidad 25% mayor
Amplía el alcance de trabajo agéntico de Codex hasta las tareas de larga duración e integra en la app de Codex una colaboración interactiva en tiempo real que permite cambiar de dirección y reflejar feedback incluso a mitad del trabajo
Es el primer modelo que participa en su propio desarrollo cuyo primer prototipo se utilizó directamente para depurar su proceso de entrenamiento, gestionar despliegues y diagnosticar evaluaciones
Logra el mejor rendimiento de la industria en benchmarks clave como SWE-Bench Pro, Terminal-Bench 2.0 y OSWorld, funcionando además con menos tokens que el modelo anterior
Más allá de escribir código, respalda el trabajo de conocimiento a lo largo de todo el ciclo de vida del software, incluyendo presentaciones, hojas de cálculo y análisis de datos

Resumen general

GPT-5.3-Codex es “el modelo de programación agéntica más capaz”
Combina en un solo modelo el rendimiento frontier de programación de GPT-5.2-Codex con las capacidades de razonamiento y conocimiento especializado de GPT-5.2, mejorando la velocidad en un 25%
Está diseñado para realizar tareas de larga duración que incluyen investigación, uso de herramientas y ejecución compleja, y puede coordinarse sin perder el contexto incluso durante el trabajo
Participó en su propio entrenamiento, despliegue y diagnóstico de evaluaciones usando versiones iniciales, convirtiéndose en el primer modelo que “aceleró su propio desarrollo”
Amplía el papel de Codex desde “escritura y revisión de código” hacia “casi cualquier tarea que desarrolladores y especialistas realizan en una computadora”

Capacidades agénticas frontier

Rendimiento de programación
- Alcanzó el mejor rendimiento en SWE-Bench Pro (evaluación de ingeniería de software real). A diferencia de SWE-Bench Verified, que solo prueba Python, este benchmark cubre 4 lenguajes, ofrece mayor resistencia a contaminación y tiene una mayor relación con la industria
- En Terminal-Bench 2.0 también superó ampliamente el mejor rendimiento previo, midiendo habilidades de terminal necesarias para agentes de programación
- Puede realizar la misma tarea con menos tokens que los modelos anteriores
Desarrollo web
- Gracias a la combinación de capacidades frontier de programación, mejoras en sensibilidad estética y técnicas de compresión, puede construir juegos y apps complejos desde cero a lo largo de varios días
- Para probar desarrollo web y capacidades agénticas de larga duración, se crearon dos juegos: uno de carreras y otro de buceo
  - Juego de carreras: varios corredores, 8 mapas e ítems que se usan con la barra espaciadora
  - Juego de buceo: exploración de distintos arrecifes, colección de una enciclopedia de peces y gestión de oxígeno, presión del agua y peligros
- Usando la skill "develop web game" y prompts de seguimiento genéricos predefinidos como "fix the bug" y "improve the game", iteró mejoras de forma autónoma a lo largo de millones de tokens
- Al crear sitios web cotidianos, entiende mejor la intención del usuario que GPT-5.2-Codex y aplica automáticamente más funciones y valores predeterminados razonables incluso con prompts simples o insuficientes
- En un ejemplo comparando landing pages, GPT-5.3-Codex mostraba automáticamente el plan anual como un precio mensual con descuento y generaba un carrusel automático de recomendaciones de conversión con 3 testimonios de usuarios, entregando un resultado más completo
Capacidades fuera de la programación
- Respalda todo el ciclo de vida del software, incluyendo depuración, despliegue, monitoreo, redacción de PRD, edición de textos, investigación de usuarios, pruebas y análisis de métricas, tareas que realizan ingenieros de software, diseñadores, product managers y científicos de datos
- También se extiende a ámbitos fuera del software, como creación de presentaciones y análisis de datos en hojas de cálculo
- Logró 70.9% en GDPval (evaluación que mide tareas de trabajo de conocimiento bien definidas en 44 ocupaciones), igualando a GPT-5.2
  - Incluye entregables de trabajo real como presentaciones y hojas de cálculo
- Se muestran ejemplos de entregables como diapositivas de asesoría financiera, documentos de capacitación minorista, hojas de cálculo de análisis de NPV y PDFs de presentaciones de moda
- Logró 64.7% en OSWorld-Verified (benchmark de uso agéntico de computadoras para tareas de productividad en entornos de escritorio visuales), un gran salto frente a modelos GPT previos (38.2%)
  - La puntuación humana es de alrededor de 72%

Colaborador interactivo

A medida que aumentan las capacidades del modelo, el reto central se desplaza desde lo que puede hacer un agente hacia qué tan fácilmente un humano puede dirigir y supervisar múltiples agentes trabajando en paralelo
La app de Codex facilita la gestión y las instrucciones para agentes, y con GPT-5.3-Codex ofrece mayor interactividad
Durante el trabajo, actualiza con frecuencia las decisiones clave y el progreso para que el usuario pueda hacer preguntas en tiempo real, discutir enfoques y ajustar la dirección sin esperar al resultado final
Explica lo que está haciendo, responde al feedback y mantiene al usuario dentro del ciclo de principio a fin
Ruta de configuración: Settings > General > Follow-up behavior para activar la dirección del modelo durante el trabajo

Entrenamiento y despliegue de GPT-5.3-Codex usando Codex

Las mejoras rápidas recientes de Codex se construyen sobre proyectos de investigación de meses a años en toda OpenAI
Muchos investigadores e ingenieros de OpenAI describen que su forma de trabajar hoy es fundamentalmente distinta a la de hace 2 meses
Las primeras versiones de GPT-5.3-Codex ya mostraban capacidades notables, por lo que el equipo usó esas versiones iniciales para apoyar mejoras de entrenamiento y despliegue de versiones posteriores
Casos de uso del equipo de investigación
- Se usó Codex para el monitoreo y la depuración de ejecuciones de entrenamiento de este lanzamiento
- Más allá de depurar problemas de infraestructura, se construyeron aplicaciones ricas para rastrear patrones en todo el proceso de entrenamiento, analizar en profundidad la calidad de la interacción, proponer correcciones e identificar con precisión diferencias de comportamiento respecto a modelos previos
Casos de uso del equipo de ingeniería
- Se usó Codex para la optimización y adaptación del harness de GPT-5.3-Codex
- Cuando surgían edge cases extraños que afectaban a usuarios, Codex ayudó a identificar bugs de renderizado de contexto y analizar la causa raíz de una baja tasa de aciertos de caché
- Durante el lanzamiento, se siguió usando para responder a picos de tráfico mediante escalado dinámico de clústeres GPU y estabilización de latencia
Casos de uso en pruebas alfa
- Un investigador quiso entender cuánto trabajo adicional realiza GPT-5.3-Codex por turno y qué diferencia de productividad genera
- GPT-5.3-Codex ideó varios clasificadores simples con expresiones regulares para estimar la frecuencia de preguntas de aclaración, respuestas positivas y negativas, y el progreso de tareas; luego los ejecutó a gran escala sobre logs completos de sesión y generó un informe de conclusiones
- Las personas que construían con Codex mostraron mayor satisfacción, y el agente entendía mejor la intención, mostraba más avance por turno y hacía menos preguntas de aclaración
Construcción de pipelines de datos
- Los datos de pruebas alfa eran muy distintos de los del modelo anterior, lo que produjo muchos resultados anómalos y contraintuitivos
- Científicos de datos construyeron junto con GPT-5.3-Codex nuevos pipelines de datos y realizaron visualizaciones mucho más ricas que con herramientas estándar de dashboards
- Analizando los resultados junto con Codex, resumieron los insights clave de miles de puntos de datos en menos de 3 minutos

Asegurar la frontera de la ciberseguridad

En los últimos meses, el rendimiento del modelo en tareas de ciberseguridad ha mejorado de forma significativa, beneficiando tanto a desarrolladores como a profesionales de seguridad
En paralelo, se prepararon salvaguardas reforzadas de ciberseguridad para apoyar usos defensivos y una mayor resiliencia del ecosistema
Bajo el Preparedness Framework, es el primer modelo clasificado con nivel High en tareas relacionadas con ciberseguridad, y también el primero entrenado directamente para identificar vulnerabilidades de software
No existe evidencia concluyente de que pueda automatizar ataques cibernéticos de punta a punta, pero se adopta un enfoque preventivo y se despliega la pila de seguridad de ciberseguridad más completa hasta la fecha
- Incluye entrenamiento de seguridad, monitoreo automatizado, acceso basado en confianza a funciones avanzadas y pipelines de cumplimiento con inteligencia de amenazas
Considerando la naturaleza inherentemente de doble uso de la ciberseguridad, se adopta un enfoque iterativo basado en evidencia que acelera la capacidad de los defensores para descubrir y corregir vulnerabilidades mientras retrasa el uso indebido
Programa de investigación defensiva y protección del ecosistema
- Se lanza el programa piloto Trusted Access for Cyber con el objetivo de acelerar la investigación en defensa cibernética
- Se amplía la beta privada del agente de investigación de seguridad Aardvark, la primera oferta de la familia de productos Codex Security
- En colaboración con maintainers de open source, se ofrece escaneo gratuito de codebases para proyectos ampliamente usados (por ejemplo, Next.js)
  - Investigadores de seguridad usaron Codex para descubrir vulnerabilidades divulgadas la semana pasada (CVE-2025-59471, CVE-2025-59472)
- Sobre la base del programa de subvenciones de ciberseguridad de 1 millón de dólares lanzado en 2023, se suman 10 millones de dólares en créditos API para acelerar la defensa cibernética con los modelos más potentes
  - Especialmente para software open source y sistemas de infraestructura crítica
  - Las organizaciones que participan en investigación de seguridad de buena fe pueden solicitar créditos API y soporte a través del Cybersecurity Grant Program

Disponibilidad y detalles

GPT-5.3-Codex está disponible en los planes pagos de ChatGPT y puede usarse en todos los lugares donde Codex es compatible (app, CLI, extensión de IDE y web)
El acceso por API se está preparando para habilitarse de forma segura
Gracias a mejoras en la infraestructura y la pila de inferencia, opera con una velocidad 25% mayor para usuarios de Codex, ofreciendo interacciones y resultados más rápidos
Co-diseñado, entrenado y servido en sistemas NVIDIA GB200 NVL72

Próxima dirección

Codex avanza más allá de escribir código, usando el código como herramienta para operar computadoras y completar tareas de principio a fin
Al expandir la frontera de los agentes de programación, libera no solo la construcción y el despliegue de software, sino también áreas más amplias de trabajo de conocimiento como investigación, análisis y ejecución de tareas complejas
Partiendo del mejor agente de programación, evoluciona hacia un colaborador general sobre la computadora, ampliando qué se puede construir y quién puede construirlo

Appendix: cifras de benchmark

Todas las evaluaciones se ejecutaron con xhigh reasoning effort
SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
GDPval (victoria o empate): GPT-5.3-Codex 70.9% / GPT-5.2 70.9% (high)
Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%

2 comentarios

treestae 2026-02-06

Antes prefería más a Claude, pero últimamente Codex me convence más. Espero que evolucionen de forma complementaria, como iOS y AOS.

GN⁺ 2026-02-06

Opiniones en Hacker News

Es interesante que GPT‑5.3 Codex y Opus 4.6 estén evolucionando en direcciones filosóficamente distintas
Codex parece diseñado como un colaborador interactivo donde el humano interviene durante el proceso, mientras que Opus apunta a ser un sistema más autónomo y planificado que minimiza la intervención humana
Esto parece reflejar dos formas en que los desarrolladores reales ven la programación con LLM: control centrado en el humano vs delegación total
Da curiosidad si los modelos seguirán optimizándose según esta división filosófica, o si aparecerán enfoques nuevos
- Desde la perspectiva de UX, de hecho se siente al revés
  Codex tiende a pensar mucho más tiempo antes de dar una respuesta
- Estoy convencido de que el enfoque de Codex va a perdurar
  Si el humano está dentro del ciclo, se pueden evitar la mayoría de los problemas de los LLM, y revisar en unidades pequeñas de código es eficiente
  Si Codex se encarga del trabajo repetitivo, el desarrollador puede concentrarse en la lógica central
  El enfoque totalmente autónomo degrada la calidad del código a largo plazo, así que no sirve para codebases grandes
- En la práctica, Codex salió al inicio como una webapp con muy poca interacción
  Le lanzabas una solicitud, corría automáticamente en un entorno de contenedor y luego solo se podía dar seguimiento por chat
- Da la impresión de que los dos modelos están convergiendo hacia el territorio del otro
  Codex parece cada vez más autónomo, y Opus más colaborativo
  Al final, probablemente ambos enfoques sean útiles según el contexto
- Codex se siente como un modelo que razona más que Opus
  Por eso la versión 5.2 me pareció más estable que Opus 4.5
Parece que Anthropic se apresuró a lanzar Opus 4.6 para evitar comparaciones con GPT‑5.3‑Codex
En Terminal‑Bench 2.0, Opus 4.6 tiene 65.4 y GPT‑5.3‑Codex 77.3
- Los benchmarks de AI no suelen coincidir bien con la experiencia real
  Aun así, Codex 5.2 fue el mejor en tareas complejas, así que tengo expectativas por 5.3
- Sorprende que hayan salido dos modelos tope de gama para coding el mismo día
- Las pruebas se hicieron en modo xhigh reasoning, así que el costo fue el doble
  GPT‑5.2 Codex salió en $3244 y Claude Opus 4.5 en alrededor de $1485
- Parece que Codex hizo overfitting a Terminal Bench
  Viendo los resultados de ARC AGI 2, da la impresión de que le falta generalización
- En mi experiencia, la familia GPT ha sido mucho mejor que Claude para coding tipo agente
  Me genera dudas la idea de que Claude tenga ventaja en programación
Me impresionó que GPT‑5.3‑Codex fuera el primer modelo usado para ayudar a desarrollar a sí mismo
Dicen que el equipo de Codex depuró su propio pipeline de entrenamiento con una versión temprana
Creo que Claude Code también creció gracias a esa cultura de dogfooding
- No está tan lejos de la dirección que predijeron los investigadores del proyecto AI‑2027
- Parece que el modelo entró en una fase inicial de auto-mejora
  Esto hace replantearse si un “soft take‑off” podría ser posible
GPT‑5.3‑Codex fue clasificado como un modelo de alta capacidad para tareas relacionadas con ciberseguridad
Fue entrenado directamente para detectar vulnerabilidades, pero todavía no hay evidencia de automatización completa de ataques
Aun así, el framework de seguridad me parece anticuado
En adelante, el propio código escrito por Codex podría convertirse en una nueva superficie de ataque para amenazas de seguridad
Codex debería estar diseñado para generar código seguro por defecto
- Me pregunto si “high‑capability” implica afirmar que supera a un equipo de expertos con nivel de doctorado
  Artículo relacionado: cobertura de NBC News
- Parece la estrategia típica de OpenAI de volver a dar la impresión de estar cerca de la AGI
  Igual que Anthropic, se siente como una forma de presumir capacidad técnica bajo el empaque de “investigación de seguridad”
- Últimamente hay un chiste sobre proyectos vibe-coded que dejan las API keys expuestas tal cual en la página web
  Da curiosidad si este tipo de errores va a seguir pasando
- Dijeron “refuerzo de seguridad”, pero al final podría ser solo agregar ACLs y actualizar regex
Antes los laboratorios de AI coordinaban para evitar anuncios simultáneos,
y ahora compiten anunciando cosas con 30 minutos de diferencia
- Ahora sí ya es una competencia feroz
  Demis será débil para la pelea política, pero probablemente compita con rendimiento
  Elon, Sam y Dario ya son hábiles en las maniobras políticas
  2026 parece que será un año dramático para la industria de AI
- También hay ajustes de calendario para competir con modelos locales durante el Año Nuevo Lunar chino
- Esta rivalidad viene desde la época de GPT‑4
  Cuando OpenAI anunciaba a las 10, Anthropic y Google hacían lanzamientos de respuesta
- Me pregunto si ese tipo de coordinación podría ser ilegal como práctica de cártel
Me llamó la atención el anuncio de que GPT‑5.3‑Codex mejoró de forma autónoma un juego web
Pero fue una pena que no publicaran la cantidad de prompts ni de tokens de la comparación experimental
Me gustaría compararlo con este clon web de Factorio que hice antes
- Ese demo está realmente genial
  No sabía que se podían usar modelos de esa manera
Llevo años escuchando eso de “100x más productividad” con AI
Pero me pregunto si existe algún programa nuevo y confiable hecho principalmente por LLM
- En los años 30, cuando llegaron las calculadoras, también decían que desaparecería el trabajo contable, pero más bien se especializó
  Los LLM solo aceleran la resolución de problemas existentes, no resuelven problemas completamente nuevos
  Por ejemplo, Gemini me ayudó bastante al proponer un enfoque basado en coordenadas polares para un problema de disposición de tarjetas UI
  Tal vez no sea 100x, pero sí siento una mejora de productividad de 2x
  Hilo relacionado: caso de vibe coding
- La mayoría de los desarrolladores resuelve problemas ya conocidos una y otra vez
  Así que la crítica de que “solo resuelve problemas ya resueltos” no significa mucho
- Estaría bueno que salieran grandes proyectos de juegos open source como OpenGTA u OpenFIFA
- Opus 4.5 logró resolver un problema simple de git después de cinco intentos,
  y tres veces alucinó flags que no existían
  ChatGPT 5.2 también necesitó varias correcciones para hacer un script de ffmpeg
  El día que maneje bien los saltos de línea en Windows, tal vez eso sí sea AGI
- ¿Habrá algún programa que un humano pueda escribir y un LLM jamás pueda hacer?
  Que una codebase sea grande es solo una limitación temporal
  Suena más a queja de gente que no soporta el progreso
Resultados de Terminal Bench 2.0

Modelo Puntaje

OpenAI Codex 5.3 77.3

Anthropic Opus 4.6 65.4
- Parece que la competencia por benchmarks (benchmaxxing) ya importa menos
  Más que el puntaje, importa la “sensación” de la experiencia real programando
- El rendimiento en el mundo real decepciona mucho más que los benchmarks
Me pregunto si los desarrolladores se sienten amenazados por este cambio
Yo sinceramente diría que sí
- A la AI le falta capacidad de abstracción
  Para programadores competitivos sería una amenaza, pero para desarrolladores comunes menos
- Si no aprendiste a usar bien la AI, es lógico que te sientas amenazado
- Por ahora todavía hace falta que una persona revise el código directamente
  Hasta que llegue la AGI, no creo que la automatización total sea posible
- Como en la paradoja de Jevons, aunque suba la eficiencia, puede que los empleos no desaparezcan
A mi alrededor hay muchos más usuarios de Claude que de Codex
Pero Codex es mucho más generoso en límites de uso y planes de pago
Incluso usándolo varios meses con el plan de $20, casi nunca llegas al límite
Siento que esta diferencia práctica importa más que la calidad del coding
- Hace poco me cambié a un agente de terminal basado en CLI y Codex fue mucho mejor
  Antes Claude era mejor en GH Copilot,
  pero Codex tiene más autonomía, así que encaja mejor con el vibe‑coding,
  y parece que ganó usuarios por el efecto de promoción en Twitter, LinkedIn y otros lados
- Yo también siento que los beneficios del plan de Codex son mayores
  Si no notas diferencia de calidad, obviamente eliges la opción más barata
- Incluso dejando correr sesiones multiagente todo el día, casi nunca pega contra el límite
  También se puede cambiar de plan libremente, así que la experiencia de uso es muy satisfactoria

Modelo	Puntaje
OpenAI Codex 5.3	77.3
Anthropic Opus 4.6	65.4

Lanzamiento de GPT-5.3-Codex

Resumen general

Capacidades agénticas frontier

Rendimiento de programación

Desarrollo web

Capacidades fuera de la programación

Colaborador interactivo

Entrenamiento y despliegue de GPT-5.3-Codex usando Codex

Casos de uso del equipo de investigación

Casos de uso del equipo de ingeniería

Casos de uso en pruebas alfa

Construcción de pipelines de datos