5 puntos por GN⁺ 2025-11-20 | 2 comentarios | Compartir por WhatsApp
  • El nuevo GPT‑5.1‑Codex‑Max presentado por OpenAI es el modelo de codificación agéntica más reciente, diseñado para realizar tareas de desarrollo complejas y de larga duración, y está disponible en el entorno Codex
  • Gracias a la nueva tecnología de “compaction”, puede manejar de forma consistente proyectos de millones de tokens, cruzando múltiples ventanas de contexto
  • Su eficiencia de tokens mejoró y logra mejor rendimiento con 30% menos tokens al mismo nivel de razonamiento, por lo que se espera una reducción de costos
  • Puede trabajar de forma autónoma durante largos periodos y realizar refactorización y depuración durante más de 24 horas
  • Se reforzaron el sandbox de seguridad y el sistema de monitoreo de ciberseguridad, avanzando como un socio de programación con IA más seguro

Presentación de GPT‑5.1‑Codex‑Max

  • GPT‑5.1‑Codex‑Max es el nuevo modelo de codificación agéntica de OpenAI, una versión actualizada de un modelo basado en razonamiento entrenado en tareas de diversas áreas como ingeniería de software, matemáticas e investigación
    • Disponible de inmediato en Codex CLI, extensiones para IDE, la nube y entornos de revisión de código
    • El acceso por API llegará pronto
  • El modelo mejora en velocidad, inteligencia y eficiencia de tokens, por lo que puede actuar como un socio de programación más confiable a lo largo de todo el ciclo de desarrollo
  • Mediante el proceso de Compaction, puede manejar de forma consistente trabajos de millones de tokens entre múltiples ventanas de contexto

Rendimiento de codificación de frontera

  • Fue entrenado con tareas reales de ingeniería de software (generación de PR, revisión de código, programación frontend y Q&A), y muestra un rendimiento superior en múltiples evaluaciones frente a modelos anteriores
  • Es el primer modelo de Codex que funciona en entornos Windows, e incluye mejoras para la colaboración con Codex CLI
  • Se observaron mejoras no solo en benchmarks, sino también en la usabilidad real

Velocidad y eficiencia de costos

  • Según SWE‑bench Verified, frente a GPT‑5.1‑Codex logra mayor rendimiento usando 30% menos tokens al mismo nivel de razonamiento
  • El modo de razonamiento “xhigh” ofrece mejor calidad al dedicar más tiempo a pensar, aunque para tareas generales se recomienda el modo “medium”
  • Se espera que la mejora en eficiencia de tokens se traduzca en menores costos para los desarrolladores
    • Ejemplo: GPT‑5.1‑Codex‑Max genera diseños frontend con funciones y estética similares a un costo mucho menor

Tareas de larga ejecución

  • Con la función de Compaction, puede realizar refactorizaciones complejas y bucles agénticos de larga duración que superan los límites de contexto
    • Cuando una sesión llega a su límite, se comprime automáticamente (compact) para asegurar un nuevo contexto sin perder el trabajo en curso
  • En evaluaciones internas se confirmaron casos de trabajo continuo durante más de 24 horas
    • Corrigiendo fallas en pruebas e implementando iteraciones repetidas, finalmente logró resultados exitosos
  • La capacidad de mantener consistencia a largo plazo es una base clave para avanzar hacia sistemas de IA generales y confiables

Construcción de agentes de IA seguros y confiables

  • Su rendimiento mejoró notablemente en evaluaciones de razonamiento de larga duración, ofreciendo mejores resultados en ciberseguridad y tareas de codificación de largo plazo
  • Aunque no alcanza el nivel “High” del Cybersecurity Preparedness Framework, tiene el rendimiento en ciberseguridad más fuerte entre los modelos desplegados hasta ahora
    • Se está reforzando su uso defensivo mediante iniciativas como el programa Aardvark
  • Un monitoreo especializado de ciberseguridad detecta y bloquea intentos de uso indebido, y las actividades sospechosas se envían a un sistema de revisión de políticas
  • Codex se ejecuta por defecto en un sandbox de seguridad, con acceso limitado a archivos y uso restringido de red
    • Al acceder a internet existe riesgo de prompt injection
  • Los desarrolladores deben revisar el trabajo del agente antes del despliegue
    • Codex registra logs de terminal, llamadas a herramientas y resultados de pruebas, y cumple un papel de apoyo, no reemplaza la revisión humana
  • Como las capacidades de ciberseguridad pueden usarse tanto para defensa como para ataque, se aplican en paralelo despliegues graduales y medidas de protección reforzadas

Disponibilidad y despliegue

  • GPT‑5.1‑Codex‑Max está disponible en Codex para los planes ChatGPT Plus, Pro, Business, Edu y Enterprise
  • También llegará pronto para desarrolladores que usan Codex CLI con clave de API
  • Desde hoy, GPT‑5.1‑Codex‑Max reemplaza a GPT‑5.1‑Codex como modelo predeterminado dentro de Codex
    • GPT‑5.1 es un modelo de propósito general, mientras que Codex‑Max se recomienda específicamente para tareas de codificación agéntica

Conclusión

  • GPT‑5.1‑Codex‑Max representa un gran avance en persistencia para tareas de codificación de largo plazo, gestión de flujos de trabajo complejos e implementaciones de alta calidad
  • Combinado con mejoras en CLI, extensiones para IDE, integración en la nube y herramientas de revisión de código, logra una mejora del 70% en la productividad de ingeniería
    • El 95% de los ingenieros internos de OpenAI usa Codex semanalmente
  • Con la expansión de las capacidades agénticas, se abre una nueva etapa de productividad para el desarrollo

Apéndice: resultados de evaluación del modelo

  • SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
  • SWE‑Lancer IC SWE: 66.3% → 79.9%
  • Terminal‑Bench 2.0: 52.8% → 58.1%

2 comentarios

 
kaydash 2025-11-27

Codex, nos vemos en MS AOIA 😊

 
GN⁺ 2025-11-20
Comentarios en Hacker News
  • Últimamente he usado mucho Claude y Codex
    Claude casi ignora por completo las instrucciones (por ejemplo, CLAUDE.md), mientras que Codex las sigue con una fidelidad obsesiva, como si no quisiera perderse ni una letra
    Por ejemplo, si hay un error tipográfico en un test, Claude lo corrige pensando “esto claramente es un typo”, pero Codex llega al extremo de reescribir el motor V8 y romper la aritmética
    Por eso siento que Claude sirve mejor para iteraciones rápidas, mientras que Codex encaja mejor en trabajos largos donde la precisión es clave

    • A mí también me impresionó mucho Codex. En un proyecto de simulador de vuelo que llevo haciendo desde hace 6 meses, tuve que cambiar el sistema de coordenadas a ECEF, lo que implicaba reescribir por completo el motor físico y el sistema gráfico
      Le di solo un párrafo de instrucciones y en 45 minutos lo hizo casi perfecto. Cuando le pedí un reporte resumido, de verdad había seguido todas las instrucciones sin saltarse una sola letra
    • Un amigo le pidió a Claude que siempre lo llamara “Mr Tinkleberry”, y dice que cada vez que Claude lo olvida puede detectar que ignoró instrucciones
    • Codex actúa como si fuera “el último programador de la Tierra”. Pase lo que pase, intenta completar el objetivo
      Esa actitud les sirve a quienes lo usan como caja negra, pero yo quiero un colaborador con sentido común
      Esto parece mostrar la diferencia entre cómo OpenAI y Anthropic ven el futuro de la IA
    • La analogía de “arreglar el test de 1+1===3” es excelente. Con esa sola línea se puede explicar la diferencia fundamental entre la familia GPT y la familia Claude
      Los modelos GPT son flojos para programar de forma improvisada, pero sobresalen en trabajos con requisitos claros
    • Me frustró que Codex no sepa borrar código en absoluto y siempre termine inflando el codebase innecesariamente
      Tanto en Python como en TypeScript había demasiado código defensivo, como .getattr() y typeof
  • Entrenamos bien los modelos, pero poniendo nombres somos malísimos 😄
    La nueva versión logra SOTA con 77.9% en SWE-Bench-Verified, 79.9% en SWE-Lancer y 58.1% en TerminalBench 2.0
    Puede trabajar durante mucho tiempo comprimiendo (compaction) múltiples ventanas de contexto, con una mejora de 30% en eficiencia de tokens
    Quisiera escuchar opiniones

    • Ahora mismo uso GPT‑5.1‑Codex‑High, pero tengo curiosidad por cómo cambia la tarifa y el límite de créditos en la versión Max
      Si de verdad “ahorra tokens”, suena como que debería ser más barato, pero el nombre “Max” suena caro
    • Codex es un gran producto, así que incluso una mejora incremental se agradece. Pienso probarlo pronto
    • Me pregunto si ya resolvieron el issue #6426.
      La versión 5.1 consumía demasiados tokens, así que terminé regresando a la 5.0
    • Ojalá también se pudiera usar este modelo en la interfaz de Chat
    • Me gusta la función de subagentes de Claude Code. Sirve mucho para manejar el contexto en codebases complejos
      Revisé estos agentes de ejemplo y estaría bueno que Codex CLI tuviera algo así
  • Hoy comparé GPT‑5.1‑Codex‑Max con Gemini 3 Pro en la CLI
    Gemini es difícil de manejar como colaborador. Si le haces una pregunta, adivina tu intención y se pone a escribir código primero
    En cambio, Codex responde la pregunta de inmediato
    En calidad de código, Gemini tenía un estilo más fácil de leer para humanos, pero Codex fue muy superior en planificación y precisión de implementación
    Gemini tuvo problemas como alucinaciones con nombres de columnas de BD, funciones faltantes y poca integración
    En general, Codex fue el ganador claro

    • Google presumió que Gemini 3 era el mejor en todos los benchmarks, pero esto muestra que en la práctica no necesariamente es así
    • Cuando uses Gemini, hay que dejar la configuración de temperature en el valor predeterminado de 1.0. Si la bajas, aparecen bucles o cae el rendimiento
      Consulta la documentación oficial
    • A mí también me pasó que, aunque le dijera a Gemini “no escribas código”, seguía reescribiéndolo
  • OpenAI a menudo publica sus modelos justo antes de anuncios de la competencia
    GPT‑4o también se anunció un día antes de Google I/O. Este Codex seguramente también sea una actualización incremental

    • GPT‑5.1 / Codex ya estaba por encima de Gemini 3 en benchmarks, y con esta actualización la diferencia se amplía aún más
    • Anthropic también lanzó Opus 4.1 para coincidir con la salida de GPT‑5. Ahora la competencia está cada vez más fuerte
    • Gracias a esta competencia, el progreso se está acelerando. Hay que agradecer la competencia sana
    • Gemini está comiéndose parte del mercado, y OpenAI lo sabe
    • Esta competencia por el timing de los anuncios ya se volvió algo normal
  • Si ves el ejemplo de renderizado SVG,
    el nivel medium está muy bien equilibrado y muestra diferencias de estilo intencionales entre high y low
    Este tipo de comparación ayuda a captar la consistencia creativa del modelo

    • Pero parece que este tipo de benchmark de salida SVG ya tiene menos sentido. Podría ser resultado de entrenamiento especializado con RLHF
  • Ojalá cada empresa dedicara aunque fuera el 1% del esfuerzo que pone en entrenar modelos a mejorar la experiencia de pago e inicio de sesión
    Claude casi no tiene sistema de login, OpenAI tiene que arreglar el bug de Codex CLI (#2798)
    Y Google tiene una estructura de productos y pagos demasiado complicada. Debería unificar todo en una sola página de precios

    • Yo también me rendí por el sistema de pagos de Google. Ni siquiera sé qué es Google Payments, y un error de verificación de cuenta terminó suspendiendo una cuenta empresarial de 18 años
    • La línea de productos de Google es un desastre. Vertex AI, AI Studio, Maker Studio, Gemini... la documentación está duplicada y poco clara
    • Desapareció la opción de opt-out del entrenamiento de datos en Gemini, y tampoco está claro qué cuentas se incluyen en el entrenamiento
      Ni siquiera las cuentas de Workspace parecen seguras. Hay que leer con cuidado los ToS
      En este momento siento que OpenAI ofrece una experiencia de cliente mucho más confiable
    • Sospecho que Gemini 3 Pro fue ajustado posteriormente con datos no autorizados
      También hay controversia relacionada en el issue #12121
    • Claude es incómodo porque al iniciar sesión no ofrece opción de contraseña ni passkey
  • La frase “un nuevo paso para convertirse en un socio de programación confiable” y “un modelo optimizado para trabajos largos” suenan contradictorias
    Si es un socio, debería trabajar contigo en iteraciones cortas; si trabaja solo durante mucho tiempo, entonces no es un socio

    • En trabajos largos, Codex es demasiado unilateral, al punto de tomar enfoques riesgosos como reescribir hasta una biblioteca TLS
    • (Miembro del equipo de Codex) Nuestro objetivo es un modelo tipo compañero que pueda manejar tanto iteraciones cortas como trabajos largos delegados
      Si ves la gráfica de tokens en el blog oficial, se entiende esa dirección
    • También recomiendo el modelo Composer de Cursor. Es muy rápido y, aunque el resultado quede corto, puedes volver a intentarlo en 30 segundos
  • Me impresionó la velocidad del modo plan de Codex. La calidad del código también estaba bien
    Pero cuando le dije “haz npm run build y corrige todos los problemas”, se descontroló instalando paquetes relacionados con eslint
    Claude Code hizo la misma tarea en menos de un minuto. Codex todavía parece inestable

    • Me pregunto qué es exactamente el modo plan
  • Codex es fuerte en backend o tareas centradas en datos, pero en trabajos simples de UI tiende a producir resultados raros

  • El fin de semana pasado usé Claude y Codex juntos, y Codex dio resultados mucho mejores en código TypeScript de física/gráficos
    De varios miles de líneas, yo mismo escribí solo unas cuantas centenas.
    Ahora pienso pedirle al nuevo Codex que revise el trabajo del Codex anterior