- El nuevo GPT‑5.1‑Codex‑Max presentado por OpenAI es el modelo de codificación agéntica más reciente, diseñado para realizar tareas de desarrollo complejas y de larga duración, y está disponible en el entorno Codex
- Gracias a la nueva tecnología de “compaction”, puede manejar de forma consistente proyectos de millones de tokens, cruzando múltiples ventanas de contexto
- Su eficiencia de tokens mejoró y logra mejor rendimiento con 30% menos tokens al mismo nivel de razonamiento, por lo que se espera una reducción de costos
- Puede trabajar de forma autónoma durante largos periodos y realizar refactorización y depuración durante más de 24 horas
- Se reforzaron el sandbox de seguridad y el sistema de monitoreo de ciberseguridad, avanzando como un socio de programación con IA más seguro
Presentación de GPT‑5.1‑Codex‑Max
- GPT‑5.1‑Codex‑Max es el nuevo modelo de codificación agéntica de OpenAI, una versión actualizada de un modelo basado en razonamiento entrenado en tareas de diversas áreas como ingeniería de software, matemáticas e investigación
- Disponible de inmediato en Codex CLI, extensiones para IDE, la nube y entornos de revisión de código
- El acceso por API llegará pronto
- El modelo mejora en velocidad, inteligencia y eficiencia de tokens, por lo que puede actuar como un socio de programación más confiable a lo largo de todo el ciclo de desarrollo
- Mediante el proceso de Compaction, puede manejar de forma consistente trabajos de millones de tokens entre múltiples ventanas de contexto
Rendimiento de codificación de frontera
- Fue entrenado con tareas reales de ingeniería de software (generación de PR, revisión de código, programación frontend y Q&A), y muestra un rendimiento superior en múltiples evaluaciones frente a modelos anteriores
- Es el primer modelo de Codex que funciona en entornos Windows, e incluye mejoras para la colaboración con Codex CLI
- Se observaron mejoras no solo en benchmarks, sino también en la usabilidad real
Velocidad y eficiencia de costos
- Según SWE‑bench Verified, frente a GPT‑5.1‑Codex logra mayor rendimiento usando 30% menos tokens al mismo nivel de razonamiento
- El modo de razonamiento “xhigh” ofrece mejor calidad al dedicar más tiempo a pensar, aunque para tareas generales se recomienda el modo “medium”
- Se espera que la mejora en eficiencia de tokens se traduzca en menores costos para los desarrolladores
- Ejemplo: GPT‑5.1‑Codex‑Max genera diseños frontend con funciones y estética similares a un costo mucho menor
Tareas de larga ejecución
- Con la función de Compaction, puede realizar refactorizaciones complejas y bucles agénticos de larga duración que superan los límites de contexto
- Cuando una sesión llega a su límite, se comprime automáticamente (
compact) para asegurar un nuevo contexto sin perder el trabajo en curso
- En evaluaciones internas se confirmaron casos de trabajo continuo durante más de 24 horas
- Corrigiendo fallas en pruebas e implementando iteraciones repetidas, finalmente logró resultados exitosos
- La capacidad de mantener consistencia a largo plazo es una base clave para avanzar hacia sistemas de IA generales y confiables
Construcción de agentes de IA seguros y confiables
- Su rendimiento mejoró notablemente en evaluaciones de razonamiento de larga duración, ofreciendo mejores resultados en ciberseguridad y tareas de codificación de largo plazo
- Aunque no alcanza el nivel “High” del Cybersecurity Preparedness Framework, tiene el rendimiento en ciberseguridad más fuerte entre los modelos desplegados hasta ahora
- Se está reforzando su uso defensivo mediante iniciativas como el programa Aardvark
- Un monitoreo especializado de ciberseguridad detecta y bloquea intentos de uso indebido, y las actividades sospechosas se envían a un sistema de revisión de políticas
- Codex se ejecuta por defecto en un sandbox de seguridad, con acceso limitado a archivos y uso restringido de red
- Al acceder a internet existe riesgo de prompt injection
- Los desarrolladores deben revisar el trabajo del agente antes del despliegue
- Codex registra logs de terminal, llamadas a herramientas y resultados de pruebas, y cumple un papel de apoyo, no reemplaza la revisión humana
- Como las capacidades de ciberseguridad pueden usarse tanto para defensa como para ataque, se aplican en paralelo despliegues graduales y medidas de protección reforzadas
Disponibilidad y despliegue
- GPT‑5.1‑Codex‑Max está disponible en Codex para los planes ChatGPT Plus, Pro, Business, Edu y Enterprise
- También llegará pronto para desarrolladores que usan Codex CLI con clave de API
- Desde hoy, GPT‑5.1‑Codex‑Max reemplaza a GPT‑5.1‑Codex como modelo predeterminado dentro de Codex
- GPT‑5.1 es un modelo de propósito general, mientras que Codex‑Max se recomienda específicamente para tareas de codificación agéntica
Conclusión
- GPT‑5.1‑Codex‑Max representa un gran avance en persistencia para tareas de codificación de largo plazo, gestión de flujos de trabajo complejos e implementaciones de alta calidad
- Combinado con mejoras en CLI, extensiones para IDE, integración en la nube y herramientas de revisión de código, logra una mejora del 70% en la productividad de ingeniería
- El 95% de los ingenieros internos de OpenAI usa Codex semanalmente
- Con la expansión de las capacidades agénticas, se abre una nueva etapa de productividad para el desarrollo
Apéndice: resultados de evaluación del modelo
- SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
- SWE‑Lancer IC SWE: 66.3% → 79.9%
- Terminal‑Bench 2.0: 52.8% → 58.1%
2 comentarios
Codex, nos vemos en MS AOIA 😊
Comentarios en Hacker News
Últimamente he usado mucho Claude y Codex
Claude casi ignora por completo las instrucciones (por ejemplo, CLAUDE.md), mientras que Codex las sigue con una fidelidad obsesiva, como si no quisiera perderse ni una letra
Por ejemplo, si hay un error tipográfico en un test, Claude lo corrige pensando “esto claramente es un typo”, pero Codex llega al extremo de reescribir el motor V8 y romper la aritmética
Por eso siento que Claude sirve mejor para iteraciones rápidas, mientras que Codex encaja mejor en trabajos largos donde la precisión es clave
Le di solo un párrafo de instrucciones y en 45 minutos lo hizo casi perfecto. Cuando le pedí un reporte resumido, de verdad había seguido todas las instrucciones sin saltarse una sola letra
Esa actitud les sirve a quienes lo usan como caja negra, pero yo quiero un colaborador con sentido común
Esto parece mostrar la diferencia entre cómo OpenAI y Anthropic ven el futuro de la IA
Los modelos GPT son flojos para programar de forma improvisada, pero sobresalen en trabajos con requisitos claros
Tanto en Python como en TypeScript había demasiado código defensivo, como
.getattr()ytypeofEntrenamos bien los modelos, pero poniendo nombres somos malísimos 😄
La nueva versión logra SOTA con 77.9% en SWE-Bench-Verified, 79.9% en SWE-Lancer y 58.1% en TerminalBench 2.0
Puede trabajar durante mucho tiempo comprimiendo (compaction) múltiples ventanas de contexto, con una mejora de 30% en eficiencia de tokens
Quisiera escuchar opiniones
Si de verdad “ahorra tokens”, suena como que debería ser más barato, pero el nombre “Max” suena caro
La versión 5.1 consumía demasiados tokens, así que terminé regresando a la 5.0
Revisé estos agentes de ejemplo y estaría bueno que Codex CLI tuviera algo así
Hoy comparé GPT‑5.1‑Codex‑Max con Gemini 3 Pro en la CLI
Gemini es difícil de manejar como colaborador. Si le haces una pregunta, adivina tu intención y se pone a escribir código primero
En cambio, Codex responde la pregunta de inmediato
En calidad de código, Gemini tenía un estilo más fácil de leer para humanos, pero Codex fue muy superior en planificación y precisión de implementación
Gemini tuvo problemas como alucinaciones con nombres de columnas de BD, funciones faltantes y poca integración
En general, Codex fue el ganador claro
Consulta la documentación oficial
OpenAI a menudo publica sus modelos justo antes de anuncios de la competencia
GPT‑4o también se anunció un día antes de Google I/O. Este Codex seguramente también sea una actualización incremental
Si ves el ejemplo de renderizado SVG,
el nivel medium está muy bien equilibrado y muestra diferencias de estilo intencionales entre high y low
Este tipo de comparación ayuda a captar la consistencia creativa del modelo
Ojalá cada empresa dedicara aunque fuera el 1% del esfuerzo que pone en entrenar modelos a mejorar la experiencia de pago e inicio de sesión
Claude casi no tiene sistema de login, OpenAI tiene que arreglar el bug de Codex CLI (#2798)
Y Google tiene una estructura de productos y pagos demasiado complicada. Debería unificar todo en una sola página de precios
Ni siquiera las cuentas de Workspace parecen seguras. Hay que leer con cuidado los ToS
En este momento siento que OpenAI ofrece una experiencia de cliente mucho más confiable
También hay controversia relacionada en el issue #12121
La frase “un nuevo paso para convertirse en un socio de programación confiable” y “un modelo optimizado para trabajos largos” suenan contradictorias
Si es un socio, debería trabajar contigo en iteraciones cortas; si trabaja solo durante mucho tiempo, entonces no es un socio
Si ves la gráfica de tokens en el blog oficial, se entiende esa dirección
Me impresionó la velocidad del modo plan de Codex. La calidad del código también estaba bien
Pero cuando le dije “haz
npm run buildy corrige todos los problemas”, se descontroló instalando paquetes relacionados con eslintClaude Code hizo la misma tarea en menos de un minuto. Codex todavía parece inestable
Codex es fuerte en backend o tareas centradas en datos, pero en trabajos simples de UI tiende a producir resultados raros
El fin de semana pasado usé Claude y Codex juntos, y Codex dio resultados mucho mejores en código TypeScript de física/gráficos
De varios miles de líneas, yo mismo escribí solo unas cuantas centenas.
Ahora pienso pedirle al nuevo Codex que revise el trabajo del Codex anterior