Construir más con GPT‑5.1‑Codex‑Max

(openai.com)

5 puntos por GN⁺ 2025-11-20 | 2 comentarios | Compartir por WhatsApp

El nuevo GPT‑5.1‑Codex‑Max presentado por OpenAI es el modelo de codificación agéntica más reciente, diseñado para realizar tareas de desarrollo complejas y de larga duración, y está disponible en el entorno Codex
Gracias a la nueva tecnología de “compaction”, puede manejar de forma consistente proyectos de millones de tokens, cruzando múltiples ventanas de contexto
Su eficiencia de tokens mejoró y logra mejor rendimiento con 30% menos tokens al mismo nivel de razonamiento, por lo que se espera una reducción de costos
Puede trabajar de forma autónoma durante largos periodos y realizar refactorización y depuración durante más de 24 horas
Se reforzaron el sandbox de seguridad y el sistema de monitoreo de ciberseguridad, avanzando como un socio de programación con IA más seguro

Presentación de GPT‑5.1‑Codex‑Max

GPT‑5.1‑Codex‑Max es el nuevo modelo de codificación agéntica de OpenAI, una versión actualizada de un modelo basado en razonamiento entrenado en tareas de diversas áreas como ingeniería de software, matemáticas e investigación
- Disponible de inmediato en Codex CLI, extensiones para IDE, la nube y entornos de revisión de código
- El acceso por API llegará pronto
El modelo mejora en velocidad, inteligencia y eficiencia de tokens, por lo que puede actuar como un socio de programación más confiable a lo largo de todo el ciclo de desarrollo
Mediante el proceso de Compaction, puede manejar de forma consistente trabajos de millones de tokens entre múltiples ventanas de contexto

Rendimiento de codificación de frontera

Fue entrenado con tareas reales de ingeniería de software (generación de PR, revisión de código, programación frontend y Q&A), y muestra un rendimiento superior en múltiples evaluaciones frente a modelos anteriores
Es el primer modelo de Codex que funciona en entornos Windows, e incluye mejoras para la colaboración con Codex CLI
Se observaron mejoras no solo en benchmarks, sino también en la usabilidad real

Velocidad y eficiencia de costos

Según SWE‑bench Verified, frente a GPT‑5.1‑Codex logra mayor rendimiento usando 30% menos tokens al mismo nivel de razonamiento
El modo de razonamiento “xhigh” ofrece mejor calidad al dedicar más tiempo a pensar, aunque para tareas generales se recomienda el modo “medium”
Se espera que la mejora en eficiencia de tokens se traduzca en menores costos para los desarrolladores
- Ejemplo: GPT‑5.1‑Codex‑Max genera diseños frontend con funciones y estética similares a un costo mucho menor

Tareas de larga ejecución

Con la función de Compaction, puede realizar refactorizaciones complejas y bucles agénticos de larga duración que superan los límites de contexto
- Cuando una sesión llega a su límite, se comprime automáticamente (compact) para asegurar un nuevo contexto sin perder el trabajo en curso
En evaluaciones internas se confirmaron casos de trabajo continuo durante más de 24 horas
- Corrigiendo fallas en pruebas e implementando iteraciones repetidas, finalmente logró resultados exitosos
La capacidad de mantener consistencia a largo plazo es una base clave para avanzar hacia sistemas de IA generales y confiables

Construcción de agentes de IA seguros y confiables

Su rendimiento mejoró notablemente en evaluaciones de razonamiento de larga duración, ofreciendo mejores resultados en ciberseguridad y tareas de codificación de largo plazo
Aunque no alcanza el nivel “High” del Cybersecurity Preparedness Framework, tiene el rendimiento en ciberseguridad más fuerte entre los modelos desplegados hasta ahora
- Se está reforzando su uso defensivo mediante iniciativas como el programa Aardvark
Un monitoreo especializado de ciberseguridad detecta y bloquea intentos de uso indebido, y las actividades sospechosas se envían a un sistema de revisión de políticas
Codex se ejecuta por defecto en un sandbox de seguridad, con acceso limitado a archivos y uso restringido de red
- Al acceder a internet existe riesgo de prompt injection
Los desarrolladores deben revisar el trabajo del agente antes del despliegue
- Codex registra logs de terminal, llamadas a herramientas y resultados de pruebas, y cumple un papel de apoyo, no reemplaza la revisión humana
Como las capacidades de ciberseguridad pueden usarse tanto para defensa como para ataque, se aplican en paralelo despliegues graduales y medidas de protección reforzadas

Disponibilidad y despliegue

GPT‑5.1‑Codex‑Max está disponible en Codex para los planes ChatGPT Plus, Pro, Business, Edu y Enterprise
También llegará pronto para desarrolladores que usan Codex CLI con clave de API
Desde hoy, GPT‑5.1‑Codex‑Max reemplaza a GPT‑5.1‑Codex como modelo predeterminado dentro de Codex
- GPT‑5.1 es un modelo de propósito general, mientras que Codex‑Max se recomienda específicamente para tareas de codificación agéntica

Conclusión

GPT‑5.1‑Codex‑Max representa un gran avance en persistencia para tareas de codificación de largo plazo, gestión de flujos de trabajo complejos e implementaciones de alta calidad
Combinado con mejoras en CLI, extensiones para IDE, integración en la nube y herramientas de revisión de código, logra una mejora del 70% en la productividad de ingeniería
- El 95% de los ingenieros internos de OpenAI usa Codex semanalmente
Con la expansión de las capacidades agénticas, se abre una nueva etapa de productividad para el desarrollo

Apéndice: resultados de evaluación del modelo

SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
SWE‑Lancer IC SWE: 66.3% → 79.9%
Terminal‑Bench 2.0: 52.8% → 58.1%

2 comentarios

kaydash 2025-11-27

Codex, nos vemos en MS AOIA 😊

GN⁺ 2025-11-20

Comentarios en Hacker News

Últimamente he usado mucho Claude y Codex
Claude casi ignora por completo las instrucciones (por ejemplo, CLAUDE.md), mientras que Codex las sigue con una fidelidad obsesiva, como si no quisiera perderse ni una letra
Por ejemplo, si hay un error tipográfico en un test, Claude lo corrige pensando “esto claramente es un typo”, pero Codex llega al extremo de reescribir el motor V8 y romper la aritmética
Por eso siento que Claude sirve mejor para iteraciones rápidas, mientras que Codex encaja mejor en trabajos largos donde la precisión es clave
- A mí también me impresionó mucho Codex. En un proyecto de simulador de vuelo que llevo haciendo desde hace 6 meses, tuve que cambiar el sistema de coordenadas a ECEF, lo que implicaba reescribir por completo el motor físico y el sistema gráfico
  Le di solo un párrafo de instrucciones y en 45 minutos lo hizo casi perfecto. Cuando le pedí un reporte resumido, de verdad había seguido todas las instrucciones sin saltarse una sola letra
- Un amigo le pidió a Claude que siempre lo llamara “Mr Tinkleberry”, y dice que cada vez que Claude lo olvida puede detectar que ignoró instrucciones
- Codex actúa como si fuera “el último programador de la Tierra”. Pase lo que pase, intenta completar el objetivo
  Esa actitud les sirve a quienes lo usan como caja negra, pero yo quiero un colaborador con sentido común
  Esto parece mostrar la diferencia entre cómo OpenAI y Anthropic ven el futuro de la IA
- La analogía de “arreglar el test de 1+1===3” es excelente. Con esa sola línea se puede explicar la diferencia fundamental entre la familia GPT y la familia Claude
  Los modelos GPT son flojos para programar de forma improvisada, pero sobresalen en trabajos con requisitos claros
- Me frustró que Codex no sepa borrar código en absoluto y siempre termine inflando el codebase innecesariamente
  Tanto en Python como en TypeScript había demasiado código defensivo, como .getattr() y typeof
Entrenamos bien los modelos, pero poniendo nombres somos malísimos 😄
La nueva versión logra SOTA con 77.9% en SWE-Bench-Verified, 79.9% en SWE-Lancer y 58.1% en TerminalBench 2.0
Puede trabajar durante mucho tiempo comprimiendo (compaction) múltiples ventanas de contexto, con una mejora de 30% en eficiencia de tokens
Quisiera escuchar opiniones
- Ahora mismo uso GPT‑5.1‑Codex‑High, pero tengo curiosidad por cómo cambia la tarifa y el límite de créditos en la versión Max
  Si de verdad “ahorra tokens”, suena como que debería ser más barato, pero el nombre “Max” suena caro
- Codex es un gran producto, así que incluso una mejora incremental se agradece. Pienso probarlo pronto
- Me pregunto si ya resolvieron el issue #6426.
  La versión 5.1 consumía demasiados tokens, así que terminé regresando a la 5.0
- Ojalá también se pudiera usar este modelo en la interfaz de Chat
- Me gusta la función de subagentes de Claude Code. Sirve mucho para manejar el contexto en codebases complejos
  Revisé estos agentes de ejemplo y estaría bueno que Codex CLI tuviera algo así
Hoy comparé GPT‑5.1‑Codex‑Max con Gemini 3 Pro en la CLI
Gemini es difícil de manejar como colaborador. Si le haces una pregunta, adivina tu intención y se pone a escribir código primero
En cambio, Codex responde la pregunta de inmediato
En calidad de código, Gemini tenía un estilo más fácil de leer para humanos, pero Codex fue muy superior en planificación y precisión de implementación
Gemini tuvo problemas como alucinaciones con nombres de columnas de BD, funciones faltantes y poca integración
En general, Codex fue el ganador claro
- Google presumió que Gemini 3 era el mejor en todos los benchmarks, pero esto muestra que en la práctica no necesariamente es así
- Cuando uses Gemini, hay que dejar la configuración de temperature en el valor predeterminado de 1.0. Si la bajas, aparecen bucles o cae el rendimiento
  Consulta la documentación oficial
- A mí también me pasó que, aunque le dijera a Gemini “no escribas código”, seguía reescribiéndolo
OpenAI a menudo publica sus modelos justo antes de anuncios de la competencia
GPT‑4o también se anunció un día antes de Google I/O. Este Codex seguramente también sea una actualización incremental
- GPT‑5.1 / Codex ya estaba por encima de Gemini 3 en benchmarks, y con esta actualización la diferencia se amplía aún más
- Anthropic también lanzó Opus 4.1 para coincidir con la salida de GPT‑5. Ahora la competencia está cada vez más fuerte
- Gracias a esta competencia, el progreso se está acelerando. Hay que agradecer la competencia sana
- Gemini está comiéndose parte del mercado, y OpenAI lo sabe
- Esta competencia por el timing de los anuncios ya se volvió algo normal
Si ves el ejemplo de renderizado SVG,
el nivel medium está muy bien equilibrado y muestra diferencias de estilo intencionales entre high y low
Este tipo de comparación ayuda a captar la consistencia creativa del modelo
- Pero parece que este tipo de benchmark de salida SVG ya tiene menos sentido. Podría ser resultado de entrenamiento especializado con RLHF
Ojalá cada empresa dedicara aunque fuera el 1% del esfuerzo que pone en entrenar modelos a mejorar la experiencia de pago e inicio de sesión
Claude casi no tiene sistema de login, OpenAI tiene que arreglar el bug de Codex CLI (#2798)
Y Google tiene una estructura de productos y pagos demasiado complicada. Debería unificar todo en una sola página de precios
- Yo también me rendí por el sistema de pagos de Google. Ni siquiera sé qué es Google Payments, y un error de verificación de cuenta terminó suspendiendo una cuenta empresarial de 18 años
- La línea de productos de Google es un desastre. Vertex AI, AI Studio, Maker Studio, Gemini... la documentación está duplicada y poco clara
- Desapareció la opción de opt-out del entrenamiento de datos en Gemini, y tampoco está claro qué cuentas se incluyen en el entrenamiento
  Ni siquiera las cuentas de Workspace parecen seguras. Hay que leer con cuidado los ToS
  En este momento siento que OpenAI ofrece una experiencia de cliente mucho más confiable
- Sospecho que Gemini 3 Pro fue ajustado posteriormente con datos no autorizados
  También hay controversia relacionada en el issue #12121
- Claude es incómodo porque al iniciar sesión no ofrece opción de contraseña ni passkey
La frase “un nuevo paso para convertirse en un socio de programación confiable” y “un modelo optimizado para trabajos largos” suenan contradictorias
Si es un socio, debería trabajar contigo en iteraciones cortas; si trabaja solo durante mucho tiempo, entonces no es un socio
- En trabajos largos, Codex es demasiado unilateral, al punto de tomar enfoques riesgosos como reescribir hasta una biblioteca TLS
- (Miembro del equipo de Codex) Nuestro objetivo es un modelo tipo compañero que pueda manejar tanto iteraciones cortas como trabajos largos delegados
  Si ves la gráfica de tokens en el blog oficial, se entiende esa dirección
- También recomiendo el modelo Composer de Cursor. Es muy rápido y, aunque el resultado quede corto, puedes volver a intentarlo en 30 segundos
Me impresionó la velocidad del modo plan de Codex. La calidad del código también estaba bien
Pero cuando le dije “haz npm run build y corrige todos los problemas”, se descontroló instalando paquetes relacionados con eslint
Claude Code hizo la misma tarea en menos de un minuto. Codex todavía parece inestable
- Me pregunto qué es exactamente el modo plan
Codex es fuerte en backend o tareas centradas en datos, pero en trabajos simples de UI tiende a producir resultados raros
El fin de semana pasado usé Claude y Codex juntos, y Codex dio resultados mucho mejores en código TypeScript de física/gráficos
De varios miles de líneas, yo mismo escribí solo unas cuantas centenas.
Ahora pienso pedirle al nuevo Codex que revise el trabajo del Codex anterior

Construir más con GPT‑5.1‑Codex‑Max

Presentación de GPT‑5.1‑Codex‑Max

Rendimiento de codificación de frontera

Velocidad y eficiencia de costos

Tareas de larga ejecución

Construcción de agentes de IA seguros y confiables

Disponibilidad y despliegue

Conclusión

Apéndice: resultados de evaluación del modelo

Lecturas relacionadas

2 comentarios

Comentarios en Hacker News