7 puntos por GN⁺ 2025-12-19 | 1 comentarios | Compartir por WhatsApp
  • Modelo de codificación agéntica enfocado en tareas complejas de desarrollo del mundo real y optimizado para el entorno de Codex
  • En trabajos de larga duración, mantiene el contexto mediante compresión de contexto y se vuelve más sólido ante cambios grandes como refactorizaciones y migraciones
  • En entornos nativos de Windows, mejora el rendimiento general y refuerza las capacidades de visión para ayudar a interpretar capturas de pantalla, planos, gráficos e interfaces
  • Alcanzó rendimiento de primer nivel en SWE-Bench Pro y Terminal-Bench 2.0
  • Introduce un esquema de despliegue que eleva de forma importante las capacidades de ciberseguridad con fines defensivos, al tiempo que considera el riesgo de uso indebido mediante acceso prioritario para usuarios de pago y un enfoque basado en la confianza

Resumen general

  • Se presenta GPT-5.2-Codex, un modelo diseñado para tareas complejas de ingeniería de software del mundo real
  • Basado en GPT-5.2 y optimizado para trabajo de codificación agéntica en el entorno de Codex
  • Ofrece rendimiento estable en trabajos prolongados gracias a la compresión de contexto y refuerza su capacidad para cambios de código a gran escala
  • También mejora el rendimiento general en entornos Windows y fortalece sus capacidades de ciberseguridad

Expandir los límites de la ingeniería de software

  • Modelo desarrollado a partir de la fortaleza de GPT-5 en tareas basadas en conocimiento especializado y del rendimiento de GPT-5.1-Codex-Max en codificación agéntica y uso de terminal
  • Su objetivo es actuar como un socio confiable en sesiones largas de programación, apoyándose en comprensión de contexto a largo plazo, estabilidad en llamadas a herramientas, mejoras de precisión y compactación nativa
  • También incorpora una orientación para mantener la eficiencia de tokens durante el proceso de razonamiento
  • El refuerzo del rendimiento de visión mejora la precisión al interpretar capturas de pantalla, planos técnicos, gráficos y pantallas de UI compartidos durante sesiones de programación
  • Basado en las funciones introducidas en GPT-5.1-Codex-Max, permite realizar codificación agéntica de forma más efectiva y estable también en Windows nativo

Rendimiento en benchmarks

  • Alcanzó rendimiento de primer nivel en SWE-Bench Pro y Terminal-Bench 2.0
    • SWE-Bench Pro evalúa la generación de parches que resuelven tareas realistas de ingeniería de software a partir de un repositorio de código proporcionado
    • Terminal-Bench 2.0 prueba el rendimiento de agentes de IA en un entorno de terminal real e incluye compilación de código, entrenamiento de modelos y configuración de servidores

Ciberseguridad en el mundo real

  • Una ciberseguridad sólida es esencial para proteger sistemas críticos y datos sensibles en la sociedad moderna
  • Las vulnerabilidades pueden permanecer ocultas durante mucho tiempo, y los procesos de descubrimiento, verificación y corrección dependen en gran medida de ingenieros con herramientas y de la comunidad independiente de investigadores de seguridad
  • En el caso del 11 de diciembre de 2025, cuando el equipo de React reveló tres vulnerabilidades de seguridad que afectaban a aplicaciones basadas en React Server Components, llamó la atención no solo la vulnerabilidad en sí, sino también el proceso de descubrimiento
  • Caso de descubrimiento de vulnerabilidades en React

    • Andrew MacPherson, investigador de seguridad en Privy, una filial de Stripe, realizó el análisis de React2Shell usando GPT-5.1-Codex-Max en Codex CLI
    • Utilizó Codex en un flujo estándar de trabajo de seguridad que incluyó configuración de un entorno local de pruebas, análisis de superficie de ataque y fuzzing basado en entradas anómalas
    • Durante la reproducción de React2Shell se detectó un comportamiento inesperado, lo que llevó en una semana al hallazgo de tres vulnerabilidades previamente desconocidas
    • Las vulnerabilidades descubiertas se divulgaron al equipo de React de manera responsable
    • También se compartió la sesión de Codex como un caso que muestra cuánto puede acortarse el proceso de verificación de vulnerabilidades por parte de investigadores de seguridad

Capacidades de ciberseguridad en continua evolución

  • Desde GPT-5-Codex, las capacidades de ciberseguridad comenzaron a mejorar significativamente; hubo un gran salto en GPT-5.1-Codex-Max y también se observan mejoras claras en GPT-5.2-Codex
  • Se espera que los modelos futuros sigan la misma tendencia, y ya se están realizando planes y evaluaciones bajo la premisa de que podrían alcanzar el nivel “alto” de capacidades de ciberseguridad dentro del marco de evaluación de preparación
  • GPT-5.2-Codex todavía no llega al nivel “alto”, pero se mantiene la preparación pensando incluso en modelos futuros que superen ese umbral

Conclusión

  • GPT-5.2-Codex muestra una tendencia en la que se amplía la forma en que la IA avanzada contribuye a la ingeniería de software y la ciberseguridad
  • Al mismo tiempo que ayuda a desarrolladores y responsables de seguridad a resolver desafíos complejos y de largo plazo, también fortalece aún más las herramientas para la investigación de seguridad responsable

1 comentarios

 
GN⁺ 2025-12-19
Comentarios en Hacker News
  • Si alguien de OpenAI está viendo esto, por favor no toquen la capacidad de razonamiento (reasoning)
    Codex es realmente excepcional para encontrar bugs e inconsistencias en código o matemáticas
    Si Claude Code es fuerte en la “generación de código”, Codex/GPT5.x es abrumadoramente mejor detectando problemas
    Creo que la calidad importa más que la velocidad

    • Si solo necesito este tipo de detección precisa de problemas unas cuantas veces al día, me pregunto si el plan de 20 dólares al mes es suficiente, o si hace falta el de 200 dólares
    • Creo que el problema es que “priorizar la calidad” al final significa “mayor costo”, y es difícil trasladar ese costo extra al cliente
    • Yo también uso principalmente Claude Code, pero si dejo Codex para revisión de código encendido, realmente domina en análisis de flujo y detección de bugs sutiles
    • Sorprende ver cómo el “modo de razonamiento avanzado” detecta bugs muy finos en el código
    • El problema es que Codex es tan preciso que no deja de señalar el bug de memoria que tengo que arreglar. Gracias a eso, todo va más lento
  • Al principio desconfiaba de Codex, pero ahora empiezo todo trabajo de programación con Codex
    No es perfecto, pero da resultados sorprendentes en refactorización, al arrancar proyectos nuevos o al trabajar con tecnologías desconocidas
    En particular, ayuda a reducir la procrastinación. Incluso si una tarea grande se siente abrumadora, si se la pasas a Codex te genera un buen punto de partida

    • Totalmente de acuerdo. Yo también era escéptico al principio, pero me impactó después de usar Opus 4.5
      Codex 5.2 mejoró mucho en calidad, y ahora le dejo la escritura del código como tal
      Si además lo usas para planear y discutir el diseño, casi deja de haber razones para escribir código uno mismo
    • En este hilo dicen que Codex es débil depurando, pero en otros hilos la opinión es exactamente la contraria
      Al final, es interesante lo difícil que resulta hacer una evaluación objetiva del rendimiento
    • Coincido en que Codex reduce la procrastinación
      Pero la velocidad del ciclo de retroalimentación es clave. Cuanto más rápido compilen el build y las pruebas, más eficientes son las herramientas de programación tipo agente
      Instrucciones claras como Agents.md ayudan mucho
    • Al comparar el rendimiento entre modelos, siento que hay demasiadas variables —como el prompt, el tipo de tarea o la versión del modelo— como para hacer una evaluación cualitativa con facilidad
    • Yo también he usado Claude Code, y me interesa saber cómo ha sido la experiencia de compararlo con Codex
  • Después de pasarme de Claude Code a Codex CLI, armé un entorno de ejecución de Codex basado en contenedores
    Puede ejecutarse de varias formas: temporizadores, disparadores por archivos, llamadas API, modo CLI, etc.
    codex-container incluye más de 300 herramientas MCP
    Soporta muchas funciones, como crawling, búsqueda en Google, Gmail/GCal/GDrive, Slack, embeddings y transcripción
    Las tareas peligrosas desde el punto de vista de seguridad se prueban de forma segura mediante aislamiento en contenedores
    También permite crawling con navegador headless usando gnosis-crawl

    • Se ve bien, pero si tengo que instalar PowerShell como dependencia, probablemente no lo usaría
    • Me pregunto si las herramientas MCP no funcionan todas al mismo tiempo, sino que tienen una estructura tipo biblioteca para usar solo las que se necesiten
  • En mi experiencia, los modelos GPT son mucho más adecuados que Claude para desarrollo backend
    Son más lentos, pero su lógica es más clara y el mantenimiento resulta mejor
    Yo sigo el patrón de planear con Claude, ejecutar con Codex y luego volver a Claude para la revisión de código
    Ojalá Codex CLI se actualizara en homebrew al mismo tiempo que en npm

    • GPT‑5 fue el primero que me generó código que pude desplegar directamente sin modificaciones
      Claude todavía mete demasiado relleno innecesario (fluff) y sobrediseña
    • En mi experiencia, Codex tiene una calidad de revisión de código muy superior a la de Claude
      Claude señala cosas menores, pero Codex encuentra los problemas que de verdad importan
    • Parece que Claude también mejoró bastante desde Opus 4.5
  • Desde el punto de vista de seguridad, me decepciona que los modelos de OpenAI restrinjan demasiado el trabajo ofensivo (offensive)
    Creo que para defenderse hace falta cierto nivel de simulación ofensiva

    • Yo estoy haciendo pruebas ofensivas en una arquitectura multiagente que usa GPT‑5 como backend, y funciona bien sin trabas
    • Tanto ChatGPT como Codex colaboran bien en pruebas de seguridad ofensivas
    • Según el artículo, los modelos más permisivos (permissive) se ofrecerán por invitación
      Me parece razonable permitir el acceso solo a expertos de confianza
    • Sobre si reforzar capacidades black hat ayuda a la seguridad, creo que hace falta equilibrio
    • Yo también hago pruebas ofensivas todos los días con modelos de OpenAI, y nunca he tenido problemas
  • Es interesante que hayan puesto “ciberseguridad” al frente
    La automatización del análisis de seguridad ya pasó el punto crítico, y creo que automatizar el trabajo repetitivo importa más que el avance del modelo en sí
    La mayor parte del análisis de vulnerabilidades consiste en tareas simples que pueden automatizarse, y al eliminarlas los humanos pueden concentrarse en el análisis creativo

  • Para mí, Codex siempre rinde peor que el modelo base
    En la CLI intenta escribir código demasiado rápido
    Aunque solo le haga una pregunta, trata de modificar archivos, lo cual es incómodo

    • Si le dices explícitamente “todavía no escribas código, solo conversemos”, funciona bien
    • En la fase de investigación y planificación, es más eficiente usar modelos no Codex, y dejar Codex para la ejecución
    • He tenido la misma experiencia. Codex acierta funcionalmente, pero el código queda raro o desordenado
    • Actualmente están desarrollando un modo plan, así que espero que eso alivie este problema
      Por ahora se puede controlar un poco si le pides que solo modifique archivos .md
    • CodexTheModel es rápido, pero yo priorizo la calidad, así que prefiero el modelo base
  • Me parece razonable la política de permitir por invitación el acceso a modelos para investigación de seguridad
    Si la “alineación de seguridad” es excesiva, puede reducir la capacidad de análisis de seguridad
    Si solo se exige un proceso KYC, sería posible obtener resultados positivos de investigación y al mismo tiempo reducir la exposición al riesgo

  • El riesgo de “doble uso (dual-use)” no significa tanto nuevas técnicas de ataque, sino bajar la barrera de ejecución
    La misma función puede ayudar a los defensores a analizar vulnerabilidades, pero también convertirse en una herramienta de ataque automatizado para los atacantes
    Por eso son importantes el control de despliegue y el logging

    • El resultado cambia por completo según si la solicitud de “revisión de vulnerabilidades de seguridad” viene de un mantenedor o de un atacante
    • Que pueda encontrar y corregir vulnerabilidades significa también que el potencial de explotación aumenta
    • Al final, eso significa que este modelo es útil tanto para el red team como para el blue team
    • Que tenga gran capacidad para detectar vulnerabilidades de seguridad significa, a la vez, que también puede usarse para automatizar ataques
  • Probé GPT‑5.1 con el plugin de Codex para VSCode, y fue una experiencia realmente mágica
    En 5.2 todavía no noto una gran diferencia, pero creo que sería aún mejor si ampliaran las funciones al nivel de Cursor o Kilo Code
    Antes pensaba que OpenAI se había quedado atrás, pero 5.1 es muy superior a Gemini