Reseña de uso real de OpenAI Codex
(zackproser.com)- OpenAI Codex es un agente de código multitarea basado en integración con GitHub que ofrece una interfaz para indicar varias tareas en paralelo mediante lenguaje natural
- El usuario puede volcar rápidamente el trabajo de todo un día y dejarle también la creación automática de ramas y la apertura de PR, además de que se puede usar desde el móvil, por lo que a largo plazo podría respaldar un flujo de trabajo centrado en lo remoto
- Sin embargo, por ahora presenta problemas como manejo deficiente de errores, calidad de código inestable, dificultad para actualizar ramas existentes y bloqueo de red en el sandbox, por lo que no es adecuado para tareas importantes de refactorización
- Codex resulta útil para automatizar tareas pequeñas de mantenimiento y es práctico para resolver rápido trabajos repetibles
- Si en el futuro se incorporan mejoras del modelo, mezcla de múltiples modelos y funciones avanzadas de integración, podría evolucionar hacia una herramienta de orquestación de alto nivel
Cómo funciona OpenAI Codex
- OpenAI Codex tiene una UI basada en chat y se puede acceder por invitación o con la suscripción Pro de $200/mes
- El usuario debe pasar por autenticación multifactor y aprobar la app de GitHub de Codex para cada organización; luego Codex clona el repositorio en su propio sandbox para ejecutar comandos y encargarse de crear ramas
- Si administras decenas de repositorios públicos y privados, destaca por su eficiencia para cambiar entre muchos proyectos y gestionar colas de trabajo
- Si solo administras 1 o 2 repositorios, usar un LLM tradicional o un editor con funciones de AI puede ser una opción más ligera
Fortalezas de Codex
-
Procesamiento paralelo de múltiples tareas e interfaz
- En cada tarea se puede especificar repositorio y rama, así que resulta natural registrar en paralelo el trabajo de todo un día usando lenguaje natural
- Codex recomienda procesar varias tareas al mismo tiempo, y eso encaja bien con este estilo de trabajo
-
Flujo de trabajo flexible y soporte móvil
- Codex funciona de forma amigable para móviles también en smartphones, por lo que tiene alto potencial para trabajar de manera eficiente fuera de la oficina
- Apunta a un escenario ideal en el que registras varias tareas al iniciar la jornada y luego sigues gestionando planes y avances incluso estando fuera
-
Feedback basado en chat y generación de PR
- Es fácil consultar los logs y el estado de las tareas en curso desde la interfaz de chat, y también se pueden dar instrucciones adicionales
- Si los cambios son satisfactorios, Codex crea el Pull Request (en adelante, PR) y completa automáticamente la descripción
- También es positivo poder revisar paso a paso los logs de ejecución y el historial de comandos
Aspectos que requieren mejora
-
Manejo de errores insuficiente
- La falta de feedback claro cuando falla el inicio de una tarea o la creación de un PR perjudica la usabilidad
-
Calidad del código y ejecución de tareas de una sola pasada
- El modelo de Codex pertenece a la familia GPT-3 y soporta más de 12 lenguajes, pero al ejecutar en paralelo solo logra un nivel de satisfacción de alrededor del 40-60%
- Es útil para tareas menores de mantenimiento, pero en refactorizaciones grandes la generación repetitiva de PR reduce su eficiencia
-
Sin soporte para actualizaciones continuas dentro de una rama
- Como es difícil vincular commits continuos a un PR o rama existente, las tareas de refactorización en varias etapas resultan ineficientes
- Por ahora, Codex es más adecuado para tareas simples que se puedan resolver y entregar directamente en un solo trabajo
-
Restricciones de acceso a red en el sandbox de ejecución
- Por diseño intencional, no puede acceder a la red externa, lo que limita varios trabajos reales como actualización de paquetes o manejo de dependencias
- Ejemplo: si se le pide instalar un paquete externo, no funciona
- Ese tipo de tareas todavía hay que hacerlas manualmente en local o depender de funciones de bots existentes, como Dependabot
Did it unlock insane productivity gains for me?
- Aún no siento una mejora explosiva de productividad
- Para que Codex realmente lleve a una revolución de productividad, haría falta
- mejorar el diseño personalizado y los algoritmos para que más tareas puedan resolverse de una sola pasada
- mejorar el flujo de actualización de PR en ramas existentes
- fortalecer la capacidad de delegación/gestión integrada y ampliar la integración con varias APIs de OpenAI
- que Codex evolucione como un orquestador de alto nivel
- En este momento, Codex tiene bastante utilidad para automatizar mantenimiento rutinario y actualizaciones pequeñas
- Para desarrollo de funciones grandes o refactorización, sigue siendo más adecuado colaborar con un IDE y soporte de LLM
Reflexiones finales
- Codex es una herramienta discreta, pero prometedora
- Considerando las funciones que podría pulirse en adelante, tiene muchas posibilidades de consolidarse como punto de inicio y herramienta de coordinación del trabajo
- Por ahora, es momento de centrarse en tareas ligeras y repetitivas mientras se esperan mejoras
3 comentarios
Parece que todavía no está como para quemar 200 dólares en eso
Opinión de Hacker News
Yo era suscriptor Plus y subí a Pro porque quería probar Codex, pero sinceramente el resultado me dejó algo decepcionado según mi experiencia
La UX todavía se siente poco pulida, y además desespera no saber cuánto va a tardar en salir un resultado
Lo rescatable es que, gracias a la naturaleza asíncrona de Codex, al menos puedes correr varias tareas al mismo tiempo
Otra molestia es que, para que esta herramienta sea realmente útil, hay que definir el entorno por separado
El problema de que no pueda ejecutar los contenedores necesarios para las pruebas le quita mucho valor
El entorno está completamente aislado de internet, así que su utilidad queda limitada
Una de las razones por las que
o3de ChatGPT es potente es que puede buscar información por su cuenta usando la web, y a Codex le falta esoPara comparar, también uso mucho Claude, y si creas un proyecto tomando un repo de GitHub como fuente, encuentra bastante bien bugs raros en apps complejas de React
Gemini también soporta bien este tipo de funciones gracias a su gran ventana de contexto
Claro, también entiendo lo que OpenAI está intentando hacer
Me gustaría que Codex realmente actuara como un compañero y resolviera varias tareas, pero por ahora se siente demasiado enfocado en los pull requests
Así que voy a volver a Plus y seguir observándolo un poco más
Trabajo en OpenAI, aunque no en el equipo de Codex, y he usado Codex con éxito en varios proyectos
Mi forma de trabajar es la siguiente
Siempre ejecuto el mismo prompt varias veces para obtener resultados distintos
Comparo varias implementaciones para encontrar la mejor, y pienso cómo habría podido cambiar el prompt para orientar el resultado hacia algo mejor
Corrijo en el prompt las partes en las que el modelo se equivocó y lo aplico de forma iterativa
Si trabajas así, dividiendo el trabajo en unidades pequeñas y repitiendo experimentos en paralelo, incluso proyectos enormes pueden resolverse en pocas horas solo ajustando prompts y revisando código
Este enfoque es muy útil no solo para tareas de transformación de API, sino también para código profundo como kernels de Triton
"Elijo la mejor entre varias implementaciones y pienso qué más tendría que haber hecho en el prompt para llevar el resultado a algo mejor"
Me da curiosidad cómo distinguen los no expertos qué es "lo mejor"
Al final, para encontrar la dirección correcta igual hace falta experiencia en ese campo, y creo que eso demuestra por qué los LLM todavía no pueden eliminar los trabajos de ingeniería de software
Creo que esa forma de trabajar manualmente podría convertirse en la base del aprendizaje por refuerzo (RL)
Si se ajusta un poco esa experiencia en la UI y se usa con datos reales, podría salir un muy buen dataset de entrenamiento
Me pregunto cuánto más rápido es esto en la práctica comparado con escribir el código directamente
Me pregunto si, cuando cambias el prompt y cambia algo importante, a veces terminas abandonando todo el trabajo anterior
Si un cambio menor afecta muchísimo el resultado y además es un problema sin ejemplos previos, parece todavía más difícil
Siento que, si esta forma de trabajo se vuelve repetitiva, podría terminar cansando o alejándote de lo esencial
A mí podría parecerme ineficiente, así que me pregunto si otras personas simplemente tienen más paciencia para este tipo de trabajo repetitivo
Compartí una reseña sobre Codex con mi equipo en el pod (https://latent.space/p/codex)
Es un modelo muy bueno para generar código de una sola pasada (en el pod confirmaron que está especialmente fine-tuned para oneshot según la tarea SWE de OpenAI)
En comparación, le faltan funciones de integración (por ejemplo, no tiene integración con navegador y la integración con GitHub es pobre: como te pide abrir un pull request nuevo en cada iteración, resulta incómodo agregar commits posteriores a una rama existente y eso molesta)
Aun así, espero que este tipo de integraciones mejoren con el tiempo
Poder correr 60 instancias simultáneas de Codex por hora me parece una diferencia cualitativa frente a Devin (5 simultáneas) o Cursor (1 simultánea antes de que salieran los agentes en segundo plano)
Yo no noté una diferencia de rendimiento especialmente visible en el modelo Codex, y aunque OpenAI explica que Codex deriva de GPT-3, en realidad es un fine-tuning de
o3Me parece entendible que la afirmación de que es un “fine-tuning de
o3” pueda confundirOpenAI también tiene reglas de naming que generan confusión, y es un problema que comparten la mayoría de las empresas de IA
Codex originalmente era un modelo antiguo basado en GPT-3, y ahora están reutilizando el mismo nombre en distintos lugares como el CLI y otras herramientas
Google hace exactamente lo mismo al usar “Gemini Ultra” tanto como nombre de modelo como nombre de suscripción, lo que también confunde
Lo que más me incomoda es la restricción de acceso a red
git fetch, sincronizar con upstream ni corregir bugs de integraciónParece que incluso bloquearon dominios para impedir
apt installen scripts de setupAdemás, el agente tiende a lanzarse primero a
git grepen vez de entender el contexto completo del código (se ve en la UI), así que me deja una impresión regularMe pregunto qué diferencias hay frente a Claude Code
Me parece realmente genial la capacidad de modificar varios repos rápidamente
Mantengo muchas apps de ejemplo al mismo tiempo, y cambiar el formato del README o actualizar links se vuelve muy tedioso cuando tienes que repetirlo en más de 20 lugares
Si pudiera dejarle ese trabajo tedioso a Codex y luego solo apretar el botón de merge, yo sería muy feliz
Espero que pronto evolucione hacia eso
Por ahora, parece que voy a seguir repartiendo tareas pequeñas de mantenimiento con Codex, mientras dejo los refactors grandes y el desarrollo importante dentro del IDE
Me pregunto si este tipo de herramientas podría servir para que personas no desarrolladoras hagan cambios de código
No tengo ninguna gana de hacer yo mismo cambios de contenido o ajustes simples de CSS, y como las pruebas pueden verificarse visualmente, me bastaría con hacer code review
La idea sería que una persona no desarrolladora revise el ticket, arranque el trabajo y luego solo diga “esto se ve bien”, y yo me encargo de revisarlo
Me parece un workflow ideal para bugs pequeños o mejoras menores que están en el backlog
Creo que herramientas como AI Assist podrían terminar convirtiéndose en la mejor plataforma low-code
A este paso, hasta da la impresión de que de verdad podría llegar el día en que se reemplace a los ingenieros de software
Pero incluso los cambios de contenido muchas veces requieren bastante reflexión
En cuanto hay un poco de escala, aparecen dependencias aguas arriba y aguas abajo, y hasta agregar un solo campo hace que todo el sistema tenga que considerarlo
Incluso cambios pequeños como los de CSS parecen triviales, pero al usuario le cuesta saber qué tan pequeños son en realidad
También van a aprender rápido sobre todos los problemas de accesibilidad, multiplataforma (móvil/escritorio) y muchos otros temas
Hasta parece una especie de embudo que hace que la gente entre “desde afuera” a la ingeniería de software
Para tareas pequeñas, me parece bastante aceptable una tasa de éxito del 40~60%
Sirve saber que le cuesta más cuando las tareas requieren lógica más compleja y profunda
En su estado actual, su rendimiento está al nivel de un ingeniero junior muy malo
Por ejemplo, cuando le pedí un cambio, para quitar warnings del compilador convirtió en masa los valores de una clase a nullable
En apariencia funcionaba y compilaba, pero era un resultado completamente incorrecto porque destruía la integridad de los datos
Hay bastantes casos así
Si dejas todo el codebase en manos de Codex sin supervisión, creo que la deuda técnica se va a acumular muy rápido
Me parece demasiado optimista esperar que Codex nos ayude a trabajar bien mientras estamos ausentes
Para mucha gente, eso de “trabajar eficazmente mientras no estás” en realidad está muy cerca de “la fila del desempleo”
Me sorprende incluso que a los desarrolladores les entusiasme este cambio
Me llama la atención ese ambiente de creer que algún día simplemente nos sentaremos a ver cómo los agentes hacen todo mientras nos siguen pagando
Aunque el trabajo se vuelva más fácil, al final puede terminar yendo en la dirección de que desaparezcan los puestos de trabajo
En la historia de los aumentos de productividad, casi no hay precedentes de que los trabajadores terminen disfrutando más tiempo libre
El patrón suele ser que las ganancias van a accionistas y directivos, que al personal que queda se le duplica la carga, y que el resto termina desempleado
Aun así, creo que para llegar al desempleo generalizado todavía falta tiempo
Para que estos modelos hagan bien el 90~95% de una categoría amplia de tareas, va a hacer falta un esfuerzo enorme
Porque siempre los primeros 60~70% son relativamente fáciles, y el último 5~10% es lo realmente difícil
Como se mencionó arriba, ahora mismo es mucho más caro ejecutar muchas veces, generar resultados distintos y elegir entre ellos, y además aplicar eso de forma uniforme a todas las tareas también implica un costo alto de inferencia
En algún momento, el code review va a volverse obligatorio precisamente porque el código lo escribió una máquina
Quizá se pueda confiar en el trabajo de la máquina para proyectos pequeños o funciones pequeñas, pero si es un codebase que se mantendrá durante mucho tiempo, los humanos van a tener que seguir encargándose de la arquitectura y de la revisión
La IA puede ayudar a explorar más rápido distintas alternativas, pero la decisión final sigue siendo humana, y la calidad va a depender de seguir diseñando o revisando directamente
En el futuro cercano, creo que los equipos de ingeniería van a buscar cómo aprovechar activamente los agentes en segundo plano
Soy escéptico con este enfoque actual de subcontratarlo todo a un modelo potente
El code review con IA hoy por hoy es bastante frustrante, así que hacen falta workflows mejores
Durante varios años, los “agentes en segundo plano” probablemente van a consolidarse como infraestructura indispensable en cada empresa
La mayoría de las empresas probablemente los usará vía API en vez de alojar por su cuenta toda esa infraestructura de agentes
La infraestructura de ingeniería basada en agentes todavía está en una etapa muy temprana, así que también parece que habrá muchas oportunidades laborales nuevas en los próximos 3~5 años
Visto con optimismo, también está el hecho de que cuanto más barato es producir algo (por ejemplo, código), más crece la demanda de eso
Puede que personas no desarrolladoras pasen a ocupar un rol más de gestión, pero en mi experiencia, cuanto más importante es una tarea, más tiende la gente a querer confiársela a una persona confiable (humana)
Pienso que se podría comparar a los desarrolladores de software con caballos, y a nuevos agentes-modelo como Codex o Claude Code con automóviles
Me pregunto si encaja esa idea de que algunos caballos se conviertan en conductores de autos, mientras otros queden desempleados porque ya no hace falta que tiren del carro
No pude encontrar ningún lugar donde esté organizada la lista de lenguajes compatibles
Ni en la presentación oficial ni en las reseñas aparece explicado correctamente, y casi todo se limita a ejemplos como corregir typos en páginas web
Parece algo que se puede armar rapidísimo en una semana con
gptel-tool¡Así que sirve mucho para usarlo como sirviente!