OpenAI lanza la vista previa de investigación de Codex, su agente de código basado en la nube

(openai.com)

8 puntos por GN⁺ 2025-05-17 | 2 comentarios | Compartir por WhatsApp

OpenAI lanzó Codex, un agente especializado en ingeniería de software, que permite automatizar tareas repetitivas, escritura de código y propuestas de PR
Codex trabaja en un entorno de sandbox aislado en la nube, y permite verificar los resultados de forma transparente mediante pruebas y registros
A través del archivo AGENTS.md, se pueden especificar las prácticas y métodos de prueba de cada proyecto para Codex, lo que permite optimizarlo para la base de código del usuario
También se ofrece Codex CLI, una versión para línea de comandos, para usar el agente en entornos de desarrollo locales
El despliegue inicial está disponible para ChatGPT Pro, Team y Enterprise, y más adelante se ampliará a usuarios de Plus y Edu

Introducing Codex

¿Qué es Codex?

Codex es un agente de ingeniería de software que se ejecuta en la nube y puede leer la base de código del usuario y automatizar diversas tareas
Puede realizar en paralelo tareas como agregar funcionalidades, responder preguntas, corregir errores y proponer PR
Cada tarea se ejecuta de forma independiente en un entorno de sandbox aislado, con el repositorio del usuario precargado

Cómo funciona

Desde la barra lateral de ChatGPT, se inicia una tarea con las opciones “Code” o “Ask” dentro de la función de Codex
Puede leer y modificar archivos, así como ejecutar comandos de pruebas, linter, type checker y otros
Las tareas normalmente se completan en 1 a 30 minutos, y es posible ver el progreso en tiempo real
Al terminar una tarea, Codex crea un commit y explica los cambios de forma transparente citando logs de terminal y salidas de pruebas
Después de revisar el resultado, se puede crear un PR en GitHub o integrarlo directamente

Archivo AGENTS.md

AGENTS.md, ubicado dentro del proyecto, guía a Codex sobre cómo explorar y probar la base de código
Es un documento con un formato similar a README, que puede incluir estilo de código, comandos de ejecución y formato de mensajes de PR
Los archivos ubicados en directorios más profundos tienen prioridad, y se deben ejecutar todas las pruebas especificadas
Codex también sigue la regla de que los prompts explícitos tienen prioridad sobre AGENTS.md

Rendimiento en benchmarks internos

En el benchmark interno de SWE de OpenAI, codex-1 alcanzó una gran precisión con hasta 192k tokens en una configuración de dificultad intermedia
Incluso sin AGENTS.md, muestra alto rendimiento y puede generar resultados que coinciden muy de cerca con el estilo de código escrito por humanos

Seguridad y confiabilidad

Codex fue diseñado con énfasis en transparencia y seguridad, y sus salidas pueden verificarse
Durante la ejecución de tareas, la conexión a internet está bloqueada y solo puede acceder al repositorio y dependencias designadas
Fue entrenado para bloquear el desarrollo de código malicioso, mientras permite tareas legítimas a nivel de kernel

Casos de uso iniciales

Dentro de OpenAI, ya se utiliza para refactorizaciones repetitivas, escritura de pruebas y documentación
Ejemplos de socios externos:
- Cisco: realiza pruebas aplicadas en productos reales y entrega retroalimentación
- Temporal: lo usa para depuración, ejecución de pruebas y refactorización en bases de código grandes
- Superhuman: ayuda con QA, corrección de fallos de integración y cambios ligeros de código por parte de PM
- Kodiak: apoya el análisis de código y el desarrollo de herramientas para tecnología de conducción autónoma

Actualización de Codex CLI

Codex CLI es un agente de programación ligero basado en terminal, que puede trabajar localmente con los modelos o3 y o4-mini
Con esta actualización, se lanza el modelo codex-mini basado en o4-mini, optimizado para CLI y con respuestas de baja latencia
Al iniciar sesión con una cuenta de ChatGPT, se configura automáticamente la API key y se ofrecen créditos gratuitos para usuarios Plus y Pro

Precio y disponibilidad

Codex ya está disponible para usuarios Pro, Enterprise y Team, y pronto se ampliará a Plus y Edu
Al inicio, puede usarse sin costo adicional, y más adelante se introducirá una política de precios basada en uso
codex-mini-latest cuesta $1.50 por cada 1M tokens de entrada y $6 por tokens de salida, con un descuento de 75% en prompt caching

Planes a futuro

A largo plazo, Codex evolucionará hacia un agente colaborativo asíncrono
Se planea una integración más profunda con Codex CLI, ChatGPT Desktop, rastreadores de issues y herramientas de CI
Se añadirán funciones de retroalimentación intermedia, discusión de estrategias de implementación y reportes proactivos de avance
OpenAI anticipa un futuro en el que los desarrolladores puedan programar más rápido y con mayor enfoque gracias a la IA

Apéndice: resumen del mensaje del sistema de codex-1

Antes y después de cada tarea, se debe verificar el estado de Git y mantenerlo siempre en estado committeado
Los procedimientos de validación dentro de AGENTS.md deben ejecutarse todos, incluso si el cambio es simple
Al crear un PR, existen reglas de cita basadas en archivos/terminal (ejemplo: 【F:main.py†L12】)
No se permite citar PR anteriores ni comentarios previos; solo se pueden usar archivos y resultados de terminal

Este mensaje del sistema sirve para entender el comportamiento base del modelo y personalizar el uso de Codex.

2 comentarios

fortune 2025-05-18

Por fin apareció un agente de próxima generación que puede diferenciarse de la generación de cursor, cline y otros. Me da expectativa ver cuánto más rápido se acelerará el ritmo de cambio del software en el mundo. También la llegada de esta siguiente generación de agentes.

GN⁺ 2025-05-17

Opiniones de Hacker News

Una persona de Assembled compartió su experiencia participando en la prueba alfa de Codex junto con varios ingenieros de su equipo; como ya llevaban mucho tiempo usando agentes locales como Cursor y Claude Code, no tenían expectativas tan altas, pero les impresionó la capacidad de Codex para ejecutar trabajo en paralelo. Puede agrupar varias tareas de refactorización, pruebas y boilerplate y ejecutarlas al mismo tiempo sin cambiar de contexto. Las soluciones anteriores tenían dificultades con esto, pero en Codex, si asignas trabajo a archivos o funciones, se encarga automáticamente de la mayor parte del scaffolding del PR, dando la sensación de tener infinitos ingenieros junior. Aun así, sigue haciendo falta bastante posprocesamiento antes de llevarlo realmente a producción. La calidad del modelo es decente, pero al evaluarlo junto a Cursor, Gemini 2.5-pro y otros, no vieron una ventaja clara en estilo, lógica o claridad de nombres; la impresión es que simplemente “cumple” con lo esperado
- Se plantea el problema de que, si no se contrata a ingenieros junior para hacer este tipo de trabajo, entonces ¿de dónde saldrán los futuros ingenieros senior? Cuenta que su hija se graduó recientemente de informática en una buena universidad, pero la realidad del mercado laboral es que hay mucha más demanda de ingenieros senior que de puestos junior. Hace poco, cuando su empresa publicó una vacante para nivel inicial, llegaron tantas solicitudes que era difícil incluso evaluarlas de forma justa. Al final, la mayoría de los amigos de su hija que consiguieron trabajo fue gracias a contactos
- Hoy ya hay millones de ingenieros contribuyendo a open source, y existe un ciclo interesante en el que gente muy talentosa usa ese código para desarrollar modelos de IA que luego reemplazan a esos mismos ingenieros. Se menciona el dilema esencial de que, mientras más contribuciones haya a open source, más fácil también se vuelve reemplazar los trabajos relacionados. Se pregunta si, con el tiempo, no se irá debilitando la motivación para contribuir a open source. Pensábamos que hacíamos trabajo creativo, pero en realidad pasamos la mayor parte del tiempo combinando conocimiento repetitivo y predecible, y la IA resulta muy buena reemplazando justo ese tipo de labor. La visión optimista es que a largo plazo habrá que crear trabajos más interesantes, pero en el futuro cercano se anticipan años de mucho dolor por exceso de oferta y falta de demanda para ingenieros de software
- Se cuestiona por qué es tan importante la ejecución paralela de tareas en Codex. En la práctica, que un LLM escriba código toma apenas unos segundos; lo que realmente consume tiempo es especificar la tarea y luego revisar y corregir. Expresan curiosidad sobre qué tanto beneficio se obtiene al paralelizar justo la parte más rápida
- Como los desarrolladores junior no tienen autonomía completa, al final se invierte bastante tiempo en gestionarlos y hacer code review. Incluso si tienes muchos juniors, ese costo de gestión tiende a volverse el cuello de botella; preguntan si no se vuelve pesado manejar muchos desarrolladores virtuales como Codex, o si en realidad tienen un nivel alto de autonomía
- Desde la perspectiva de alguien que ha usado Cursor y Claude Code durante mucho tiempo, pregunta por las ventajas y limitaciones de Claude Code y si, frente a Codex, la ejecución paralela de tareas realmente marcó una gran diferencia. Como el reciente Codex CLI también quedó por debajo de las expectativas, esperan conocer la experiencia y las conclusiones del equipo usando Claude Code
En el video preview de Codex de OpenAI, una persona coincide con la opinión de Katy Shi de que “el trabajo de ingeniería se ha movido más hacia la revisión de código que hacia escribirlo”. Observa que, en una era de adopción seria de IA, los desarrolladores siguen quedándose en leer código y pruebas. Si se introdujera el concepto relativamente nuevo de simulación, especialmente en frontend, sería posible predecir distintos resultados más allá de solo mirar código y tests. Dice que ha estado explorando personalmente este tema recientemente y que lo sintió con fuerza al ver el material de lanzamiento de Codex
- Es parecido a su argumento sobre Graphite: en una era de generación masiva de código por IA, lo central pasa a ser revisar, probar e integrar. También están construyendo sistemas de revisión de código con IA, pero sigue existiendo una necesidad permanente de revisión humana, fundamentalmente por el tema de la responsabilidad. Las computadoras nunca pueden asumir responsabilidad
- Preguntan si “ver simulaciones” significa aprovechar suites de pruebas automatizadas
Como cocreador de SWE-bench, alguien considera interesante que Codex muestre una ligera mejora incluso frente a resultados ya fuertes de o3, y se pregunta si subir del 75% al 85% en Verified requerirá tanto tiempo como el que tomó pasar del 20% al 75%
- Cree que hay un fenómeno de sobreoptimización excesiva hacia benchmarks relacionados con swe-bench, y comparte resultados de medición de varios tipos como multi-swe-bench, swe polybench y kotlin bench
- También pregunta cuánto tiempo tomó llegar del 20% al 75%
Alguien está suscrito a la versión Pro, pero cada vez que intenta probar Codex lo envían a la página de pago del plan para equipos. Pregunta si todavía no está oficialmente abierto o si se le está escapando algo; ha usado productos de OpenAI de forma constante y realmente quiere probar Codex
- Responden que algo similar pasa con cada actualización importante y que les cuesta entenderlo
- Otra persona dice que está en una situación parecida, pero que parece haberse habilitado hace unos minutos, así que concluye que el servicio se está desplegando gradualmente
- También se informa que todavía sigue en despliegue gradual
En el livestream se mencionó “microVM”, sin acceso a navegador ni a internet. Se considera que usar microkernels como Firecracker o Unikraft permitiría escalar rápido y a bajo costo, pero prevén una gran barrera técnica para pasar a entornos de computadora completos y aislados por agente. El actual ChatGPT Operator sí soporta acceso al navegador, así que técnicamente sería posible, pero creen que la escala de demanda sería distinta. Ven margen suficiente para que aparezcan empresas de infraestructura que ofrezcan entornos completos de PC dedicados a IA con soporte para fork/snapshot/screen/human-in-the-loop, mientras que por ahora la implementación sigue limitada a funciones parciales como el uso del navegador
- Dicen que E2B Desktop ya ofrece esta función y comparten enlaces a la demo y al SDK
Una persona comenta que cuando trabajaba en un banco, el equipo legal pedía con frecuencia cambios menores en la app, y ahora parece que podrían hacerlos por su cuenta; cree que el equipo legal estaría muy orgulloso de eso
- Responden que dar al equipo legal permiso para cambiar código sin ejecutar pruebas, sin testing y sin code review sería riesgoso, y que al final nadie haría algo así
- Se anticipa que en el futuro el bug tracking va a cambiar por completo: cualquiera dentro de la organización dejará issues o solicitudes de funciones y el modelo responderá automáticamente, con intervención humana solo cuando haga falta. Al final, juzgar qué cambios de código son legales y cumplen con los estándares de la empresa irá emergiendo como un rol clave para revisores no técnicos
- En tono realista, alguien promete que el equipo legal no va a modificar código directamente
Hay preocupación por la privacidad, el opt-out de datos de entrenamiento y el riesgo que puede surgir al competir con modelos creados a través de la plataforma. Se cuestiona si es justo una política tipo “no puedes usar en competencia lo que tú mismo produjiste”. Incluso admiten que quizá sea una visión demasiado pesimista, pero plantean el problema de impedir que OpenAI use la información que uno crea para competir contra uno
- Responden que en el video hay una opción explícita para elegir directamente si se permite o no entrenar con el repositorio
Una persona comparte problemas al usar la función de "secrets": se inyecta bien durante la configuración del entorno, pero en el trabajo real no funciona, y el error se reproduce siempre incluso tras restablecer el entorno y probar otros métodos
Hay preocupación de que, como Codex solo funciona en la nube, el código termine haciéndose commit y push automáticamente sin dar tiempo a revisarlo de forma interna. En aider prefieren un flujo donde, después del commit, hacen git reset HEAD^ y git diff para revisar directamente los cambios y solo después de las correcciones necesarias hacen commit y push
- Si de todos modos se va a revertir el commit de inmediato, recomiendan la opción --no-auto-commits de Aider
- Explican que Codex es, en términos simples, una versión administrada en la nube del Codex CLI existente; lo principal es el nuevo modelo en sí, y esperan que pronto también esté disponible por API
- Señalan que en el livestream se mostró una estructura donde, al terminar la tarea, el diff se muestra inmediatamente y solo después de revisarlo se puede decidir si crear un GitHub PR
Preguntan qué opinan las empresas de compartir su codebase con proveedores de IA, o si solo lo usan mediante instalaciones locales
- Responden que en las empresas es muy común compartir código con servicios SaaS, y normalmente eso se limita con contratos aparte para impedir usos arbitrarios
- También dicen que la mayor parte del código de las empresas solo tiene valor dentro de su propia compañía
- Otra opinión es que un lugar como OpenAI no se va a poner a mirar su código y asumir riesgos por eso; no valdría la pena el riesgo legal
- Al final, todo esto también es un trade-off entre costo y beneficio, y si el beneficio es grande, sí puede valer la pena compartirlo
- Cursor tiene una función en modo enterprise para forzar privacidad de datos