GPT-5-Codex

(openai.com)

16 puntos por GN⁺ 2025-09-17 | 6 comentarios | Compartir por WhatsApp

GPT-5-Codex es un modelo optimizado para la ingeniería de software real, con soporte tanto para sesiones conversacionales cortas como para trabajo autónomo de larga duración
El nuevo modelo refuerza su capacidad de revisión de código, detectando fallas importantes de forma temprana mediante exploración de dependencias, ejecución de pruebas y comparación entre la intención y la implementación
Muestra un rendimiento sobresaliente en tareas como la refactorización de código a gran escala y ajusta dinámicamente el tiempo de trabajo según lo que necesite el usuario
Se renovaron Codex CLI y la extensión para IDE para mejorar los flujos de trabajo tipo agente, con adjuntos de imágenes, seguimiento del progreso del trabajo, búsqueda web e integración con MCP
Con la integración con GitHub, ahora puede hacer revisión automática de PR y hasta sugerir correcciones, reduciendo la carga de revisión del equipo y aumentando la confiabilidad del lanzamiento
Codex ahora está incluido en los planes ChatGPT Plus, Pro, Business, Edu y Enterprise

GPT-5-Codex

GPT-5-Codex es un modelo especializado en tareas complejas de ingeniería del mundo real (compilación de proyectos, incorporación de funciones, refactorización a gran escala, depuración y revisión de código)
- Mejoró su capacidad para seguir instrucciones de AGENTS.md, por lo que es posible obtener los resultados deseados sin largas explicaciones sobre estilo de código o limpieza
Ajusta dinámicamente su tiempo de razonamiento según la dificultad de la tarea
- Responde rápido a solicitudes simples y, en trabajos grandes, puede operar de forma autónoma durante horas mientras mejora el resultado
Está optimizado para revisión de código, realizando validaciones precisas mediante exploración del codebase, análisis de dependencias y ejecución de pruebas
- En la validación de commits de proyectos open source, las revisiones de GPT-5-Codex fueron evaluadas como más confiables
También es potente en tareas de frontend y, en la nube, puede usar entrada de imágenes para revisar visualmente el progreso y compartir resultados mediante capturas de pantalla
Mientras que GPT-5 es un modelo de propósito general, GPT-5-Codex fue diseñado para tareas de programación tipo agente exclusivas del entorno Codex

Actualizaciones de Codex

Codex CLI y la extensión para IDE fueron rediseñados con foco en la experiencia de programación tipo agente
- En la CLI ahora se pueden adjuntar imágenes, gestionar To-Do del progreso del trabajo y conectar sistemas externos
- La UI de terminal se mejoró para que las llamadas a herramientas y los diff sean más fáciles de ver
- El modo de aprobación se simplificó para ofrecer seguridad y comodidad al mismo tiempo
La extensión para IDE funciona en VS Code, Cursor y otros entornos, y ofrece resultados más rápidos con prompts más cortos basados en archivos y código seleccionado
- Permite pasar de forma fluida entre entornos locales y en la nube, además de seguir trabajos en curso y revisar tareas completadas
En el entorno de nube se reforzaron las mejoras de velocidad mediante caché (reducción del 90%), la configuración automática del entorno y el control de acceso a internet
- Se pueden usar imágenes para especificaciones de diseño de UI o reportes de bugs, y Codex puede abrir su propio navegador para verificar resultados y adjuntar capturas a un PR
La integración con GitHub permite revisión automática de PR y sugerencias de corrección
- Es posible solicitar una revisión específica con el comando @codex review
- Dentro de OpenAI, Codex ya revisa previamente la mayoría de los PR y detecta cientos de issues de forma temprana

Seguridad y protección

Codex se ejecuta por defecto en un entorno sandbox, con acceso de red restringido
- Es posible controlar mediante aprobación si se ejecutan comandos riesgosos y permitir solo dominios de confianza
Los desarrolladores pueden ajustar el nivel de seguridad según su entorno, y Codex proporciona registros y resultados de pruebas para cada tarea, ayudando a la verificación
Se recomienda usarlo como revisor auxiliar, no como reemplazo de la revisión humana
GPT-5-Codex está clasificado como un modelo con altas capacidades en los dominios de biología y química, por lo que se le aplican mecanismos de seguridad

Precio y disponibilidad

Codex está incluido en los planes ChatGPT Plus, Pro, Business, Edu y Enterprise
- Plus/Edu/Business son adecuados para 1 o 2 sesiones por semana, mientras que Pro soporta trabajo semanal de desarrollo a tiempo completo
El plan Business permite comprar créditos adicionales y Enterprise opera con un pool de créditos compartido
Próximamente también estará disponible GPT-5-Codex para usuarios de claves API de Codex CLI
Codex seguirá evolucionando como un socio de programación más rápido y confiable, consolidándose como una herramienta para ayudar a los equipos a ejecutar proyectos ambiciosos

6 comentarios

aeolian21 2025-09-18

Tiene poca capacidad para resolver problemas en temas donde hay que considerar varios contextos y, en general, usa mucho código con patrones de diseño innecesarios. Da fuertemente la impresión de que en el entrenamiento se usó principalmente código de ejemplo educativo y no código real de producción.
En conjunto, hay una diferencia de rendimiento considerable frente a Gemini.

bluekai17 2025-09-18

Si lo comparas con Claude Code, ¿por ahora Claude Code sigue siendo un poco más usable?

kuthia 2025-09-18

Al final, ¿una buena herramienta de IA ofrece una buena experiencia de usuario cuando toma en cuenta el nivel de cultura general (?) del usuario y, aun así, garantiza que la calidad del resultado se mantenga en cierto nivel?
Es interesante que usuarios de todos los niveles, sin excepción, esperen algo mejor de las herramientas de IA.

slowandsnow 2025-09-17

Claude es demasiado incómodo, así que estoy pensando en cambiarme.

shakespeares 2025-09-18

¿Hay algo que le resulte incómodo?

GN⁺ 2025-09-17

Comentarios de Hacker News

Confirmé que el tamaño del prompt del nuevo modelo se redujo a casi la mitad respecto al anterior (10KB vs 23KB) (recursos relacionados: ejemplo del prompt anterior, ejemplo de un prompt más antiguo)
En rendimiento según SWE-bench, parece similar al gpt-5 anterior, pero gpt-5-codex da la impresión de estar reforzado principalmente en refactorización de código (según benchmarks internos, de 33.9% -> 51.3%)
Hace poco intenté una refactorización grande con Codex CLI (gpt-5-high) para separar varias librerías internas en paquetes, pero el modelo fallaba seguido al borrar y reescribir archivos, por ejemplo omitiendo archivos importantes
Personalmente prefería copiar los archivos y luego modificarlos por paquete, y en esta mejora parece que aplicaron un mejor tool calling
También afirman que el nuevo modelo es más "steerable" (más controlable de forma explícita), pero en mi experiencia Codex CLI (gpt-5) ya era mucho más fácil de controlar que Claude Code, así que cualquier mejora adicional es muy bienvenida
- Coincido en que la puntuación de SWE-bench es parecida entre gpt-5 y gpt-5-codex, pero la evaluación de SWE-bench en sí es una prueba muy limitada
  Incluso con la misma puntuación, la experiencia de uso real puede ser muy distinta
  También comparto un hilo en X (antes Twitter) que habla en detalle de factores que SWE-bench no puede medir: enlace
- Que sea "más steerable" incluso podría ser una desventaja
  Porque también puede seguir el prompt demasiado al pie de la letra
  Al final eso exige una mejor forma de escribir prompts y una mejor comprensión de cómo usar el modelo
  Para ingenieros de software de alto nivel puede ser bueno, pero para desarrolladores que programan más por intuición (vibe-coder) podría ser complicado
- De repente hay muchas opiniones diciendo que Codex CLI con gpt-5-codex ya superó a Claude Code, pero me cuesta creerlo tan fácil
- Me pregunto si parte del prompt se movió a una capa más alta o si se integró de otra manera
- Para mover cosas a paquetes al refactorizar código, recomiendo mover los archivos manualmente
  Luego solo hay que decirle a Codex: "antes este archivo estaba en otro lugar, arréglalo para que funcione bien"
  Parece que Codex y otros CLI todavía no manejan bien el concepto de mover archivos
  Sobre todo, el borrado o movimiento de archivos casi nunca se ha rastreado correctamente al generar commits de git
Fui usuario fanático durante mucho tiempo de la combinación claude-4-sonnet + Cursor, pero en los últimos 2 meses mi uso se disparó
Después de la suscripción base de Cursor pasé a Pro, pero aun así volví a toparme con límites y al final terminé usando mi propia API key de Claude, gastando como 70 dólares por semana (no lo veo sostenible)
Luego salió grok-code-fast-1 y lo conecté a Cursor para usarlo todos los días; ha sido rápido, barato (hasta ahora gratis) y me dejó muy satisfecho
Últimamente también probé GPT-5 a través de la extensión oficial de Codex para VSCode, y la verdad es que es sorprendentemente bueno
Con gpt-5-medium hice una refactorización grande de una app de React Native y mejoré la estructura y el rendimiento de la app en una sola noche (si lo hubiera hecho yo, me habría tomado al menos 2 días)
Ahora estoy haciendo que gpt-5-medium-codex rehaga toda la estructura del enrutamiento de la app, y tiene muchas tool calls, entiende bien las instrucciones y ejecuta todo de forma muy ordenada
Mi stack de ahora probablemente será Cursor + grok-code-fast-1 (para el día a día), y Codex/GPT cuando lo necesite
Por cierto, a gpt-5-medium lo exploté muchísimo todo el día y, con mi cuenta de ChatGPT Plus, ni una sola vez me topé con un límite, así que gracias al equipo de OpenAI
- Me da curiosidad el flujo de trabajo que usaste al intentar refactorizar con gpt-5-medium
  Como no tengo un caso fácil para probar por mi cuenta, quisiera saber cómo le das prompts al modelo, qué tipo de sugerencias recibes y cuánto ayudó tu propio conocimiento como desarrollador
  También me pregunto si es una experiencia alcanzable para un SWE promedio, o un desarrollador promedio
- En un año usando Cursor, fue la primera vez que superé el límite de uso
  Me ha pasado llegar al límite con Claude, GPT y también Grok
  Por eso elegí pagar uso adicional dentro de la suscripción Cursor Pro (25 dólares al mes, o sea 20 + 5) para seguir usando Claude, porque me resultó más rápido que Grok
- Yo también terminé tomando casi la misma decisión
  grok-code-fast-1 funciona bien para la mayoría de las tareas de programación
  Lo uso en opencode y parece que ofrecen cierta cantidad gratis; ni siquiera agregué una clave de grok aparte y aun así pude usarlo
Estoy muy impresionado con la calidad del IDE CLI de Codex
Aunque antes te pareciera malo, si lo pruebas otra vez en la extensión de vscode lo recomiendo por la cantidad de uso generosa que dan con la suscripción Plus
Dejé mi suscripción Claude code max y me cambié al plan ChatGPT Pro de $200
Es mucho más rápido y hasta ahora no me he topado con ningún límite
- Estoy usando aider junto con gemini pro para desarrollar proyectos
  En concreto, comparto un proyecto de herramientas que hice: aretecodex.tools
- Uso Cursor con el plan de $20, pero a los 15 días ya pegué con el límite y el resto del mes me toca pagar extra
  Quisiera saber si hay alguna medida recomendable
- Me da curiosidad qué significa exactamente CLI IDE
- Ahora me confunde si ya se puede usar por suscripción como claude code, o si solo existe vía API
Me pareció interesante que en este hilo muchos usuarios se estuvieran cambiando a Codex o alejándose de Claude Code
El mayor problema de Claude Code era que, cuando se le asignaban demasiadas tareas, a menudo inventaba implementaciones mock o código falso, empeorando las cosas en la práctica
Incluso ajustando el prompt de entrada era difícil mejorarlo, así que al final lo reemplacé por Codex
Codex sí tiene la ventaja de trabajar dentro de una base de código ya completamente configurada, pero en la experiencia real fue mucho mejor
- Cuando uso Claude, lo que mejor me funciona es 1) crear un plan en plan-mode y 2) luego indicarle que implemente el plan
  Otros sistemas no tienen un modo de "planificación" separado, así que intentan implementar desde el principio y eso obliga a afinar mucho el prompt
  Claude sí soporta por separado la estructura "plan > ejecución", así que el enfoque es distinto
Según lo que he observado en las últimas dos semanas, Claude Code ha bajado mucho de rendimiento y además su cuota de uso cayó bastante, mientras que OpenAI Codex más bien se siente mejor en rendimiento y con una cuota mucho más amplia
Si alguien no lo ha usado desde hace más de un mes, recomendaría volver a probar Codex CLI
- Desde la perspectiva del usuario final, creo que lo más importante es "poder salirte en cualquier momento"
  Hay que seguir comparando servicios y elegir el que tenga la mejor relación precio/rendimiento
  En el último año varias empresas compitieron con distintas ventajas y desventajas, pero no hubo ningún servicio especialmente revolucionario
  No hay razón para aferrarse a uno en particular, y los únicos que están tratando de retener a los usuarios son las empresas SaaS
- Me pregunto si Codex CLI todavía conserva esa costumbre de actuar en modo "YOLO" cuando detecta que un proyecto tiene git
  Lo que considero imprescindible en una herramienta de asistencia para programar es

una lista blanca de comandos permitidos
que comandos peligrosos como rm requieran aprobación cada vez
soporte para comandos slash personalizados
No me importan tanto cosas como hooks de build o funciones de subagentes

Tengo una duda: quisiera saber cómo usar en Codex CLI un modo equivalente al "normal mode" de Claude
Codex solo parece soportar vibe coding o plan mode, y no tiene un modo interactivo intermedio donde te pregunte "¿está bien si hago esta tarea (a/b)?", lo cual me frustra
Me cuesta entender por qué solo te deja elegir entre copiar y pegar el código editado o aceptarlo automáticamente
- Normalmente lo que hago es escribir en el prompt: "haz un plan y no programes hasta que yo lo apruebe"
  Luego reviso el plan varias veces en bucle antes de decirle que ejecute
  A veces el LLM "olvida" el plan, así que lo copio y lo guardo aparte
  También hago que me vaya entregando el trabajo por etapas, o voy validando en cada hito, como build o pruebas unitarias
Me parece muy impresionante
Mientras desarrollaba una animación de "presencia compartida" (una web app donde el fondo cambia según la ubicación del cursor de todos los usuarios), estuve experimentando usando tanto Claude como Codex
Hasta ayer, ambos modelos estaban batallando y Claude iba apenas un poco por delante
Cuando había que crear algo de forma "creativa", los resultados de ambos modelos eran algo genéricos y tenían dificultades con la implementación de la simulación
Hoy hice la misma tarea con Codex y, aunque el diseño seguía algo soso, la parte de la simulación funcionó mucho mejor
- Eso pasa porque la UI creada por un LLM, si no le das prompts muy detallados (diseño, esquema de colores, preferencias visuales, etc.), siempre termina produciendo algo genérico y común
  Si le das más atributos de UI o le pides que tome como referencia el diseño de una app existente, el resultado mejora bastante
Quise volver a intentar esto de programar con AI, así que me suscribí a ChatGPT y probé Codex, pero me parece demasiado lento
Incluso en un repositorio casi vacío y con una tarea simple, el modelo se quedó 20 minutos solo "pensando"
Como experiencia, es básicamente un ingeniero esperando sin hacer nada, así que me hace dudar de la productividad real
Si fuera un agente asíncrono, al menos se podrían correr varios en paralelo, pero para eso necesitaría una base de código estructurada, y aunque ya le dediqué varias horas, ni siquiera logró hacer el esqueleto
Leí y vi toda la documentación y los videos, pero a este punto siento que sería mucho más rápido construirlo yo mismo a mano
No sé si estoy haciendo algo mal, si simplemente es sobrecarga del servidor o si el nivel actual de la IA realmente es así
- La mayoría de los ingenieros que he visto suelen intentar correr varias cosas en paralelo
  Cuando te acostumbras a poner varios agentes a trabajar al mismo tiempo, la verdad es que sí puede servir bastante
  Leí un artículo relacionado hace tiempo, aunque ahora me cuesta encontrarlo
Probé Codex por primera vez el fin de semana y el resultado fue medio raro
Le pedí un ejemplo muy simple (levantar una app de Rails con Docker Compose y agregar homepage/Devise), pero en lugar de crear los archivos reales, terminó metiendo todo el contenido de los archivos hardcodeado dentro de bootstrap.sh
Quiero seguir observando si más adelante se comporta de otra manera
Llevo un mes usando chatgpt de pago, y siento que OpenAI últimamente está mejorando mucho la experiencia de usuario
Por ejemplo, el modo de voz es mucho mejor que el de Claude, y los nombres de los modelos, que antes eran confusos, ahora se simplificaron y son más fáciles de usar
Incluso como asistente general rindió mejor que Claude, y OpenAI además sigue lanzando nuevas herramientas, así que también les doy ventaja en confiabilidad

GPT-5-Codex

GPT-5-Codex

Actualizaciones de Codex

Seguridad y protección

Precio y disponibilidad

Lecturas relacionadas

6 comentarios

Comentarios de Hacker News