16 puntos por GN⁺ 2025-09-17 | 6 comentarios | Compartir por WhatsApp
  • GPT-5-Codex es un modelo optimizado para la ingeniería de software real, con soporte tanto para sesiones conversacionales cortas como para trabajo autónomo de larga duración
  • El nuevo modelo refuerza su capacidad de revisión de código, detectando fallas importantes de forma temprana mediante exploración de dependencias, ejecución de pruebas y comparación entre la intención y la implementación
  • Muestra un rendimiento sobresaliente en tareas como la refactorización de código a gran escala y ajusta dinámicamente el tiempo de trabajo según lo que necesite el usuario
  • Se renovaron Codex CLI y la extensión para IDE para mejorar los flujos de trabajo tipo agente, con adjuntos de imágenes, seguimiento del progreso del trabajo, búsqueda web e integración con MCP
  • Con la integración con GitHub, ahora puede hacer revisión automática de PR y hasta sugerir correcciones, reduciendo la carga de revisión del equipo y aumentando la confiabilidad del lanzamiento
  • Codex ahora está incluido en los planes ChatGPT Plus, Pro, Business, Edu y Enterprise

GPT-5-Codex

  • GPT-5-Codex es un modelo especializado en tareas complejas de ingeniería del mundo real (compilación de proyectos, incorporación de funciones, refactorización a gran escala, depuración y revisión de código)
    • Mejoró su capacidad para seguir instrucciones de AGENTS.md, por lo que es posible obtener los resultados deseados sin largas explicaciones sobre estilo de código o limpieza
  • Ajusta dinámicamente su tiempo de razonamiento según la dificultad de la tarea
    • Responde rápido a solicitudes simples y, en trabajos grandes, puede operar de forma autónoma durante horas mientras mejora el resultado
  • Está optimizado para revisión de código, realizando validaciones precisas mediante exploración del codebase, análisis de dependencias y ejecución de pruebas
    • En la validación de commits de proyectos open source, las revisiones de GPT-5-Codex fueron evaluadas como más confiables
  • También es potente en tareas de frontend y, en la nube, puede usar entrada de imágenes para revisar visualmente el progreso y compartir resultados mediante capturas de pantalla
  • Mientras que GPT-5 es un modelo de propósito general, GPT-5-Codex fue diseñado para tareas de programación tipo agente exclusivas del entorno Codex

Actualizaciones de Codex

  • Codex CLI y la extensión para IDE fueron rediseñados con foco en la experiencia de programación tipo agente
    • En la CLI ahora se pueden adjuntar imágenes, gestionar To-Do del progreso del trabajo y conectar sistemas externos
    • La UI de terminal se mejoró para que las llamadas a herramientas y los diff sean más fáciles de ver
    • El modo de aprobación se simplificó para ofrecer seguridad y comodidad al mismo tiempo
  • La extensión para IDE funciona en VS Code, Cursor y otros entornos, y ofrece resultados más rápidos con prompts más cortos basados en archivos y código seleccionado
    • Permite pasar de forma fluida entre entornos locales y en la nube, además de seguir trabajos en curso y revisar tareas completadas
  • En el entorno de nube se reforzaron las mejoras de velocidad mediante caché (reducción del 90%), la configuración automática del entorno y el control de acceso a internet
    • Se pueden usar imágenes para especificaciones de diseño de UI o reportes de bugs, y Codex puede abrir su propio navegador para verificar resultados y adjuntar capturas a un PR
  • La integración con GitHub permite revisión automática de PR y sugerencias de corrección
    • Es posible solicitar una revisión específica con el comando @codex review
    • Dentro de OpenAI, Codex ya revisa previamente la mayoría de los PR y detecta cientos de issues de forma temprana

Seguridad y protección

  • Codex se ejecuta por defecto en un entorno sandbox, con acceso de red restringido
    • Es posible controlar mediante aprobación si se ejecutan comandos riesgosos y permitir solo dominios de confianza
  • Los desarrolladores pueden ajustar el nivel de seguridad según su entorno, y Codex proporciona registros y resultados de pruebas para cada tarea, ayudando a la verificación
  • Se recomienda usarlo como revisor auxiliar, no como reemplazo de la revisión humana
  • GPT-5-Codex está clasificado como un modelo con altas capacidades en los dominios de biología y química, por lo que se le aplican mecanismos de seguridad

Precio y disponibilidad

  • Codex está incluido en los planes ChatGPT Plus, Pro, Business, Edu y Enterprise
    • Plus/Edu/Business son adecuados para 1 o 2 sesiones por semana, mientras que Pro soporta trabajo semanal de desarrollo a tiempo completo
  • El plan Business permite comprar créditos adicionales y Enterprise opera con un pool de créditos compartido
  • Próximamente también estará disponible GPT-5-Codex para usuarios de claves API de Codex CLI
  • Codex seguirá evolucionando como un socio de programación más rápido y confiable, consolidándose como una herramienta para ayudar a los equipos a ejecutar proyectos ambiciosos

6 comentarios

 
aeolian21 2025-09-18

Tiene poca capacidad para resolver problemas en temas donde hay que considerar varios contextos y, en general, usa mucho código con patrones de diseño innecesarios. Da fuertemente la impresión de que en el entrenamiento se usó principalmente código de ejemplo educativo y no código real de producción.
En conjunto, hay una diferencia de rendimiento considerable frente a Gemini.

 
bluekai17 2025-09-18

Si lo comparas con Claude Code, ¿por ahora Claude Code sigue siendo un poco más usable?

 
kuthia 2025-09-18

Al final, ¿una buena herramienta de IA ofrece una buena experiencia de usuario cuando toma en cuenta el nivel de cultura general (?) del usuario y, aun así, garantiza que la calidad del resultado se mantenga en cierto nivel?
Es interesante que usuarios de todos los niveles, sin excepción, esperen algo mejor de las herramientas de IA.

 
slowandsnow 2025-09-17

Claude es demasiado incómodo, así que estoy pensando en cambiarme.

 
shakespeares 2025-09-18

¿Hay algo que le resulte incómodo?

 
GN⁺ 2025-09-17
Comentarios de Hacker News
  • Confirmé que el tamaño del prompt del nuevo modelo se redujo a casi la mitad respecto al anterior (10KB vs 23KB) (recursos relacionados: ejemplo del prompt anterior, ejemplo de un prompt más antiguo)
    En rendimiento según SWE-bench, parece similar al gpt-5 anterior, pero gpt-5-codex da la impresión de estar reforzado principalmente en refactorización de código (según benchmarks internos, de 33.9% -> 51.3%)
    Hace poco intenté una refactorización grande con Codex CLI (gpt-5-high) para separar varias librerías internas en paquetes, pero el modelo fallaba seguido al borrar y reescribir archivos, por ejemplo omitiendo archivos importantes
    Personalmente prefería copiar los archivos y luego modificarlos por paquete, y en esta mejora parece que aplicaron un mejor tool calling
    También afirman que el nuevo modelo es más "steerable" (más controlable de forma explícita), pero en mi experiencia Codex CLI (gpt-5) ya era mucho más fácil de controlar que Claude Code, así que cualquier mejora adicional es muy bienvenida

    • Coincido en que la puntuación de SWE-bench es parecida entre gpt-5 y gpt-5-codex, pero la evaluación de SWE-bench en sí es una prueba muy limitada
      Incluso con la misma puntuación, la experiencia de uso real puede ser muy distinta
      También comparto un hilo en X (antes Twitter) que habla en detalle de factores que SWE-bench no puede medir: enlace

    • Que sea "más steerable" incluso podría ser una desventaja
      Porque también puede seguir el prompt demasiado al pie de la letra
      Al final eso exige una mejor forma de escribir prompts y una mejor comprensión de cómo usar el modelo
      Para ingenieros de software de alto nivel puede ser bueno, pero para desarrolladores que programan más por intuición (vibe-coder) podría ser complicado

    • De repente hay muchas opiniones diciendo que Codex CLI con gpt-5-codex ya superó a Claude Code, pero me cuesta creerlo tan fácil

    • Me pregunto si parte del prompt se movió a una capa más alta o si se integró de otra manera

    • Para mover cosas a paquetes al refactorizar código, recomiendo mover los archivos manualmente
      Luego solo hay que decirle a Codex: "antes este archivo estaba en otro lugar, arréglalo para que funcione bien"
      Parece que Codex y otros CLI todavía no manejan bien el concepto de mover archivos
      Sobre todo, el borrado o movimiento de archivos casi nunca se ha rastreado correctamente al generar commits de git

  • Fui usuario fanático durante mucho tiempo de la combinación claude-4-sonnet + Cursor, pero en los últimos 2 meses mi uso se disparó
    Después de la suscripción base de Cursor pasé a Pro, pero aun así volví a toparme con límites y al final terminé usando mi propia API key de Claude, gastando como 70 dólares por semana (no lo veo sostenible)
    Luego salió grok-code-fast-1 y lo conecté a Cursor para usarlo todos los días; ha sido rápido, barato (hasta ahora gratis) y me dejó muy satisfecho
    Últimamente también probé GPT-5 a través de la extensión oficial de Codex para VSCode, y la verdad es que es sorprendentemente bueno
    Con gpt-5-medium hice una refactorización grande de una app de React Native y mejoré la estructura y el rendimiento de la app en una sola noche (si lo hubiera hecho yo, me habría tomado al menos 2 días)
    Ahora estoy haciendo que gpt-5-medium-codex rehaga toda la estructura del enrutamiento de la app, y tiene muchas tool calls, entiende bien las instrucciones y ejecuta todo de forma muy ordenada
    Mi stack de ahora probablemente será Cursor + grok-code-fast-1 (para el día a día), y Codex/GPT cuando lo necesite
    Por cierto, a gpt-5-medium lo exploté muchísimo todo el día y, con mi cuenta de ChatGPT Plus, ni una sola vez me topé con un límite, así que gracias al equipo de OpenAI

    • Me da curiosidad el flujo de trabajo que usaste al intentar refactorizar con gpt-5-medium
      Como no tengo un caso fácil para probar por mi cuenta, quisiera saber cómo le das prompts al modelo, qué tipo de sugerencias recibes y cuánto ayudó tu propio conocimiento como desarrollador
      También me pregunto si es una experiencia alcanzable para un SWE promedio, o un desarrollador promedio

    • En un año usando Cursor, fue la primera vez que superé el límite de uso
      Me ha pasado llegar al límite con Claude, GPT y también Grok
      Por eso elegí pagar uso adicional dentro de la suscripción Cursor Pro (25 dólares al mes, o sea 20 + 5) para seguir usando Claude, porque me resultó más rápido que Grok

    • Yo también terminé tomando casi la misma decisión
      grok-code-fast-1 funciona bien para la mayoría de las tareas de programación
      Lo uso en opencode y parece que ofrecen cierta cantidad gratis; ni siquiera agregué una clave de grok aparte y aun así pude usarlo

  • Estoy muy impresionado con la calidad del IDE CLI de Codex
    Aunque antes te pareciera malo, si lo pruebas otra vez en la extensión de vscode lo recomiendo por la cantidad de uso generosa que dan con la suscripción Plus
    Dejé mi suscripción Claude code max y me cambié al plan ChatGPT Pro de $200
    Es mucho más rápido y hasta ahora no me he topado con ningún límite

    • Estoy usando aider junto con gemini pro para desarrollar proyectos
      En concreto, comparto un proyecto de herramientas que hice: aretecodex.tools

    • Uso Cursor con el plan de $20, pero a los 15 días ya pegué con el límite y el resto del mes me toca pagar extra
      Quisiera saber si hay alguna medida recomendable

    • Me da curiosidad qué significa exactamente CLI IDE

    • Ahora me confunde si ya se puede usar por suscripción como claude code, o si solo existe vía API

  • Me pareció interesante que en este hilo muchos usuarios se estuvieran cambiando a Codex o alejándose de Claude Code
    El mayor problema de Claude Code era que, cuando se le asignaban demasiadas tareas, a menudo inventaba implementaciones mock o código falso, empeorando las cosas en la práctica
    Incluso ajustando el prompt de entrada era difícil mejorarlo, así que al final lo reemplacé por Codex
    Codex sí tiene la ventaja de trabajar dentro de una base de código ya completamente configurada, pero en la experiencia real fue mucho mejor

    • Cuando uso Claude, lo que mejor me funciona es 1) crear un plan en plan-mode y 2) luego indicarle que implemente el plan
      Otros sistemas no tienen un modo de "planificación" separado, así que intentan implementar desde el principio y eso obliga a afinar mucho el prompt
      Claude sí soporta por separado la estructura "plan > ejecución", así que el enfoque es distinto
  • Según lo que he observado en las últimas dos semanas, Claude Code ha bajado mucho de rendimiento y además su cuota de uso cayó bastante, mientras que OpenAI Codex más bien se siente mejor en rendimiento y con una cuota mucho más amplia
    Si alguien no lo ha usado desde hace más de un mes, recomendaría volver a probar Codex CLI

    • Desde la perspectiva del usuario final, creo que lo más importante es "poder salirte en cualquier momento"
      Hay que seguir comparando servicios y elegir el que tenga la mejor relación precio/rendimiento
      En el último año varias empresas compitieron con distintas ventajas y desventajas, pero no hubo ningún servicio especialmente revolucionario
      No hay razón para aferrarse a uno en particular, y los únicos que están tratando de retener a los usuarios son las empresas SaaS

    • Me pregunto si Codex CLI todavía conserva esa costumbre de actuar en modo "YOLO" cuando detecta que un proyecto tiene git
      Lo que considero imprescindible en una herramienta de asistencia para programar es

  1. una lista blanca de comandos permitidos
  2. que comandos peligrosos como rm requieran aprobación cada vez
  3. soporte para comandos slash personalizados
    No me importan tanto cosas como hooks de build o funciones de subagentes
  • Tengo una duda: quisiera saber cómo usar en Codex CLI un modo equivalente al "normal mode" de Claude
    Codex solo parece soportar vibe coding o plan mode, y no tiene un modo interactivo intermedio donde te pregunte "¿está bien si hago esta tarea (a/b)?", lo cual me frustra
    Me cuesta entender por qué solo te deja elegir entre copiar y pegar el código editado o aceptarlo automáticamente

    • Normalmente lo que hago es escribir en el prompt: "haz un plan y no programes hasta que yo lo apruebe"
      Luego reviso el plan varias veces en bucle antes de decirle que ejecute
      A veces el LLM "olvida" el plan, así que lo copio y lo guardo aparte
      También hago que me vaya entregando el trabajo por etapas, o voy validando en cada hito, como build o pruebas unitarias
  • Me parece muy impresionante
    Mientras desarrollaba una animación de "presencia compartida" (una web app donde el fondo cambia según la ubicación del cursor de todos los usuarios), estuve experimentando usando tanto Claude como Codex
    Hasta ayer, ambos modelos estaban batallando y Claude iba apenas un poco por delante
    Cuando había que crear algo de forma "creativa", los resultados de ambos modelos eran algo genéricos y tenían dificultades con la implementación de la simulación
    Hoy hice la misma tarea con Codex y, aunque el diseño seguía algo soso, la parte de la simulación funcionó mucho mejor

    • Eso pasa porque la UI creada por un LLM, si no le das prompts muy detallados (diseño, esquema de colores, preferencias visuales, etc.), siempre termina produciendo algo genérico y común
      Si le das más atributos de UI o le pides que tome como referencia el diseño de una app existente, el resultado mejora bastante
  • Quise volver a intentar esto de programar con AI, así que me suscribí a ChatGPT y probé Codex, pero me parece demasiado lento
    Incluso en un repositorio casi vacío y con una tarea simple, el modelo se quedó 20 minutos solo "pensando"
    Como experiencia, es básicamente un ingeniero esperando sin hacer nada, así que me hace dudar de la productividad real
    Si fuera un agente asíncrono, al menos se podrían correr varios en paralelo, pero para eso necesitaría una base de código estructurada, y aunque ya le dediqué varias horas, ni siquiera logró hacer el esqueleto
    Leí y vi toda la documentación y los videos, pero a este punto siento que sería mucho más rápido construirlo yo mismo a mano
    No sé si estoy haciendo algo mal, si simplemente es sobrecarga del servidor o si el nivel actual de la IA realmente es así

    • La mayoría de los ingenieros que he visto suelen intentar correr varias cosas en paralelo
      Cuando te acostumbras a poner varios agentes a trabajar al mismo tiempo, la verdad es que sí puede servir bastante
      Leí un artículo relacionado hace tiempo, aunque ahora me cuesta encontrarlo
  • Probé Codex por primera vez el fin de semana y el resultado fue medio raro
    Le pedí un ejemplo muy simple (levantar una app de Rails con Docker Compose y agregar homepage/Devise), pero en lugar de crear los archivos reales, terminó metiendo todo el contenido de los archivos hardcodeado dentro de bootstrap.sh
    Quiero seguir observando si más adelante se comporta de otra manera

  • Llevo un mes usando chatgpt de pago, y siento que OpenAI últimamente está mejorando mucho la experiencia de usuario
    Por ejemplo, el modo de voz es mucho mejor que el de Claude, y los nombres de los modelos, que antes eran confusos, ahora se simplificaron y son más fáciles de usar
    Incluso como asistente general rindió mejor que Claude, y OpenAI además sigue lanzando nuevas herramientas, así que también les doy ventaja en confiabilidad