17 puntos por GN⁺ 2025-05-21 | 3 comentarios | Compartir por WhatsApp
  • OpenAI Codex es un agente de código multitarea basado en integración con GitHub que ofrece una interfaz para indicar varias tareas en paralelo mediante lenguaje natural
  • El usuario puede volcar rápidamente el trabajo de todo un día y dejarle también la creación automática de ramas y la apertura de PR, además de que se puede usar desde el móvil, por lo que a largo plazo podría respaldar un flujo de trabajo centrado en lo remoto
  • Sin embargo, por ahora presenta problemas como manejo deficiente de errores, calidad de código inestable, dificultad para actualizar ramas existentes y bloqueo de red en el sandbox, por lo que no es adecuado para tareas importantes de refactorización
  • Codex resulta útil para automatizar tareas pequeñas de mantenimiento y es práctico para resolver rápido trabajos repetibles
  • Si en el futuro se incorporan mejoras del modelo, mezcla de múltiples modelos y funciones avanzadas de integración, podría evolucionar hacia una herramienta de orquestación de alto nivel

Cómo funciona OpenAI Codex

  • OpenAI Codex tiene una UI basada en chat y se puede acceder por invitación o con la suscripción Pro de $200/mes
  • El usuario debe pasar por autenticación multifactor y aprobar la app de GitHub de Codex para cada organización; luego Codex clona el repositorio en su propio sandbox para ejecutar comandos y encargarse de crear ramas
  • Si administras decenas de repositorios públicos y privados, destaca por su eficiencia para cambiar entre muchos proyectos y gestionar colas de trabajo
  • Si solo administras 1 o 2 repositorios, usar un LLM tradicional o un editor con funciones de AI puede ser una opción más ligera

Fortalezas de Codex

  • Procesamiento paralelo de múltiples tareas e interfaz

    • En cada tarea se puede especificar repositorio y rama, así que resulta natural registrar en paralelo el trabajo de todo un día usando lenguaje natural
    • Codex recomienda procesar varias tareas al mismo tiempo, y eso encaja bien con este estilo de trabajo
  • Flujo de trabajo flexible y soporte móvil

    • Codex funciona de forma amigable para móviles también en smartphones, por lo que tiene alto potencial para trabajar de manera eficiente fuera de la oficina
    • Apunta a un escenario ideal en el que registras varias tareas al iniciar la jornada y luego sigues gestionando planes y avances incluso estando fuera
  • Feedback basado en chat y generación de PR

    • Es fácil consultar los logs y el estado de las tareas en curso desde la interfaz de chat, y también se pueden dar instrucciones adicionales
    • Si los cambios son satisfactorios, Codex crea el Pull Request (en adelante, PR) y completa automáticamente la descripción
    • También es positivo poder revisar paso a paso los logs de ejecución y el historial de comandos
    Publicidad

Aspectos que requieren mejora

  • Manejo de errores insuficiente

    • La falta de feedback claro cuando falla el inicio de una tarea o la creación de un PR perjudica la usabilidad
  • Calidad del código y ejecución de tareas de una sola pasada

    • El modelo de Codex pertenece a la familia GPT-3 y soporta más de 12 lenguajes, pero al ejecutar en paralelo solo logra un nivel de satisfacción de alrededor del 40-60%
    • Es útil para tareas menores de mantenimiento, pero en refactorizaciones grandes la generación repetitiva de PR reduce su eficiencia
  • Sin soporte para actualizaciones continuas dentro de una rama

    • Como es difícil vincular commits continuos a un PR o rama existente, las tareas de refactorización en varias etapas resultan ineficientes
    • Por ahora, Codex es más adecuado para tareas simples que se puedan resolver y entregar directamente en un solo trabajo
    Publicidad
  • Restricciones de acceso a red en el sandbox de ejecución

    • Por diseño intencional, no puede acceder a la red externa, lo que limita varios trabajos reales como actualización de paquetes o manejo de dependencias
    • Ejemplo: si se le pide instalar un paquete externo, no funciona
    • Ese tipo de tareas todavía hay que hacerlas manualmente en local o depender de funciones de bots existentes, como Dependabot

Did it unlock insane productivity gains for me?

  • Aún no siento una mejora explosiva de productividad
  • Para que Codex realmente lleve a una revolución de productividad, haría falta
    • mejorar el diseño personalizado y los algoritmos para que más tareas puedan resolverse de una sola pasada
    • mejorar el flujo de actualización de PR en ramas existentes
    • fortalecer la capacidad de delegación/gestión integrada y ampliar la integración con varias APIs de OpenAI
    • que Codex evolucione como un orquestador de alto nivel
  • En este momento, Codex tiene bastante utilidad para automatizar mantenimiento rutinario y actualizaciones pequeñas
  • Para desarrollo de funciones grandes o refactorización, sigue siendo más adecuado colaborar con un IDE y soporte de LLM

Reflexiones finales

  • Codex es una herramienta discreta, pero prometedora
  • Considerando las funciones que podría pulirse en adelante, tiene muchas posibilidades de consolidarse como punto de inicio y herramienta de coordinación del trabajo
  • Por ahora, es momento de centrarse en tareas ligeras y repetitivas mientras se esperan mejoras

3 comentarios

 
yangeok 2025-05-23

Parece que todavía no está como para quemar 200 dólares en eso

 
GN⁺ 2025-05-21
Opinión de Hacker News
  • Yo era suscriptor Plus y subí a Pro porque quería probar Codex, pero sinceramente el resultado me dejó algo decepcionado según mi experiencia
    La UX todavía se siente poco pulida, y además desespera no saber cuánto va a tardar en salir un resultado
    Lo rescatable es que, gracias a la naturaleza asíncrona de Codex, al menos puedes correr varias tareas al mismo tiempo
    Otra molestia es que, para que esta herramienta sea realmente útil, hay que definir el entorno por separado
    El problema de que no pueda ejecutar los contenedores necesarios para las pruebas le quita mucho valor
    El entorno está completamente aislado de internet, así que su utilidad queda limitada
    Una de las razones por las que o3 de ChatGPT es potente es que puede buscar información por su cuenta usando la web, y a Codex le falta eso
    Para comparar, también uso mucho Claude, y si creas un proyecto tomando un repo de GitHub como fuente, encuentra bastante bien bugs raros en apps complejas de React
    Gemini también soporta bien este tipo de funciones gracias a su gran ventana de contexto
    Claro, también entiendo lo que OpenAI está intentando hacer
    Me gustaría que Codex realmente actuara como un compañero y resolviera varias tareas, pero por ahora se siente demasiado enfocado en los pull requests
    Así que voy a volver a Plus y seguir observándolo un poco más

    • Creo que el soporte para contenedores es indispensable
  • Trabajo en OpenAI, aunque no en el equipo de Codex, y he usado Codex con éxito en varios proyectos
    Mi forma de trabajar es la siguiente
    Siempre ejecuto el mismo prompt varias veces para obtener resultados distintos
    Comparo varias implementaciones para encontrar la mejor, y pienso cómo habría podido cambiar el prompt para orientar el resultado hacia algo mejor
    Corrijo en el prompt las partes en las que el modelo se equivocó y lo aplico de forma iterativa
    Si trabajas así, dividiendo el trabajo en unidades pequeñas y repitiendo experimentos en paralelo, incluso proyectos enormes pueden resolverse en pocas horas solo ajustando prompts y revisando código
    Este enfoque es muy útil no solo para tareas de transformación de API, sino también para código profundo como kernels de Triton

    • "Elijo la mejor entre varias implementaciones y pienso qué más tendría que haber hecho en el prompt para llevar el resultado a algo mejor"
      Me da curiosidad cómo distinguen los no expertos qué es "lo mejor"
      Al final, para encontrar la dirección correcta igual hace falta experiencia en ese campo, y creo que eso demuestra por qué los LLM todavía no pueden eliminar los trabajos de ingeniería de software

    • Creo que esa forma de trabajar manualmente podría convertirse en la base del aprendizaje por refuerzo (RL)
      Si se ajusta un poco esa experiencia en la UI y se usa con datos reales, podría salir un muy buen dataset de entrenamiento

    • Me pregunto cuánto más rápido es esto en la práctica comparado con escribir el código directamente

    • Me pregunto si, cuando cambias el prompt y cambia algo importante, a veces terminas abandonando todo el trabajo anterior
      Si un cambio menor afecta muchísimo el resultado y además es un problema sin ejemplos previos, parece todavía más difícil
      Siento que, si esta forma de trabajo se vuelve repetitiva, podría terminar cansando o alejándote de lo esencial
      A mí podría parecerme ineficiente, así que me pregunto si otras personas simplemente tienen más paciencia para este tipo de trabajo repetitivo

  • Compartí una reseña sobre Codex con mi equipo en el pod (https://latent.space/p/codex)
    Es un modelo muy bueno para generar código de una sola pasada (en el pod confirmaron que está especialmente fine-tuned para oneshot según la tarea SWE de OpenAI)
    En comparación, le faltan funciones de integración (por ejemplo, no tiene integración con navegador y la integración con GitHub es pobre: como te pide abrir un pull request nuevo en cada iteración, resulta incómodo agregar commits posteriores a una rama existente y eso molesta)
    Aun así, espero que este tipo de integraciones mejoren con el tiempo
    Poder correr 60 instancias simultáneas de Codex por hora me parece una diferencia cualitativa frente a Devin (5 simultáneas) o Cursor (1 simultánea antes de que salieran los agentes en segundo plano)
    Yo no noté una diferencia de rendimiento especialmente visible en el modelo Codex, y aunque OpenAI explica que Codex deriva de GPT-3, en realidad es un fine-tuning de o3

    • Me parece entendible que la afirmación de que es un “fine-tuning de o3” pueda confundir
      OpenAI también tiene reglas de naming que generan confusión, y es un problema que comparten la mayoría de las empresas de IA
      Codex originalmente era un modelo antiguo basado en GPT-3, y ahora están reutilizando el mismo nombre en distintos lugares como el CLI y otras herramientas
      Google hace exactamente lo mismo al usar “Gemini Ultra” tanto como nombre de modelo como nombre de suscripción, lo que también confunde

    • Lo que más me incomoda es la restricción de acceso a red

      1. no se puede hacer git fetch, sincronizar con upstream ni corregir bugs de integración
      2. no se puede descargar librerías externas nuevas para probar integraciones
        Parece que incluso bloquearon dominios para impedir apt install en scripts de setup
        Además, el agente tiende a lanzarse primero a git grep en vez de entender el contexto completo del código (se ve en la UI), así que me deja una impresión regular
    • Me pregunto qué diferencias hay frente a Claude Code

  • Me parece realmente genial la capacidad de modificar varios repos rápidamente
    Mantengo muchas apps de ejemplo al mismo tiempo, y cambiar el formato del README o actualizar links se vuelve muy tedioso cuando tienes que repetirlo en más de 20 lugares
    Si pudiera dejarle ese trabajo tedioso a Codex y luego solo apretar el botón de merge, yo sería muy feliz

    • Yo siento exactamente lo mismo
      Espero que pronto evolucione hacia eso
      Por ahora, parece que voy a seguir repartiendo tareas pequeñas de mantenimiento con Codex, mientras dejo los refactors grandes y el desarrollo importante dentro del IDE
  • Me pregunto si este tipo de herramientas podría servir para que personas no desarrolladoras hagan cambios de código
    No tengo ninguna gana de hacer yo mismo cambios de contenido o ajustes simples de CSS, y como las pruebas pueden verificarse visualmente, me bastaría con hacer code review
    La idea sería que una persona no desarrolladora revise el ticket, arranque el trabajo y luego solo diga “esto se ve bien”, y yo me encargo de revisarlo
    Me parece un workflow ideal para bugs pequeños o mejoras menores que están en el backlog

    • Creo que herramientas como AI Assist podrían terminar convirtiéndose en la mejor plataforma low-code
      A este paso, hasta da la impresión de que de verdad podría llegar el día en que se reemplace a los ingenieros de software

    • Pero incluso los cambios de contenido muchas veces requieren bastante reflexión
      En cuanto hay un poco de escala, aparecen dependencias aguas arriba y aguas abajo, y hasta agregar un solo campo hace que todo el sistema tenga que considerarlo
      Incluso cambios pequeños como los de CSS parecen triviales, pero al usuario le cuesta saber qué tan pequeños son en realidad

    • También van a aprender rápido sobre todos los problemas de accesibilidad, multiplataforma (móvil/escritorio) y muchos otros temas
      Hasta parece una especie de embudo que hace que la gente entre “desde afuera” a la ingeniería de software

  • Para tareas pequeñas, me parece bastante aceptable una tasa de éxito del 40~60%
    Sirve saber que le cuesta más cuando las tareas requieren lógica más compleja y profunda

    • Según mis pruebas, Codex se pierde por completo en cuanto la tarea exige aunque sea un poco de pensamiento crítico
      En su estado actual, su rendimiento está al nivel de un ingeniero junior muy malo
      Por ejemplo, cuando le pedí un cambio, para quitar warnings del compilador convirtió en masa los valores de una clase a nullable
      En apariencia funcionaba y compilaba, pero era un resultado completamente incorrecto porque destruía la integridad de los datos
      Hay bastantes casos así
      Si dejas todo el codebase en manos de Codex sin supervisión, creo que la deuda técnica se va a acumular muy rápido
  • Me parece demasiado optimista esperar que Codex nos ayude a trabajar bien mientras estamos ausentes
    Para mucha gente, eso de “trabajar eficazmente mientras no estás” en realidad está muy cerca de “la fila del desempleo”

    • Me sorprende incluso que a los desarrolladores les entusiasme este cambio
      Me llama la atención ese ambiente de creer que algún día simplemente nos sentaremos a ver cómo los agentes hacen todo mientras nos siguen pagando
      Aunque el trabajo se vuelva más fácil, al final puede terminar yendo en la dirección de que desaparezcan los puestos de trabajo

    • En la historia de los aumentos de productividad, casi no hay precedentes de que los trabajadores terminen disfrutando más tiempo libre
      El patrón suele ser que las ganancias van a accionistas y directivos, que al personal que queda se le duplica la carga, y que el resto termina desempleado

    • Aun así, creo que para llegar al desempleo generalizado todavía falta tiempo
      Para que estos modelos hagan bien el 90~95% de una categoría amplia de tareas, va a hacer falta un esfuerzo enorme
      Porque siempre los primeros 60~70% son relativamente fáciles, y el último 5~10% es lo realmente difícil
      Como se mencionó arriba, ahora mismo es mucho más caro ejecutar muchas veces, generar resultados distintos y elegir entre ellos, y además aplicar eso de forma uniforme a todas las tareas también implica un costo alto de inferencia
      En algún momento, el code review va a volverse obligatorio precisamente porque el código lo escribió una máquina
      Quizá se pueda confiar en el trabajo de la máquina para proyectos pequeños o funciones pequeñas, pero si es un codebase que se mantendrá durante mucho tiempo, los humanos van a tener que seguir encargándose de la arquitectura y de la revisión
      La IA puede ayudar a explorar más rápido distintas alternativas, pero la decisión final sigue siendo humana, y la calidad va a depender de seguir diseñando o revisando directamente
      En el futuro cercano, creo que los equipos de ingeniería van a buscar cómo aprovechar activamente los agentes en segundo plano
      Soy escéptico con este enfoque actual de subcontratarlo todo a un modelo potente
      El code review con IA hoy por hoy es bastante frustrante, así que hacen falta workflows mejores
      Durante varios años, los “agentes en segundo plano” probablemente van a consolidarse como infraestructura indispensable en cada empresa
      La mayoría de las empresas probablemente los usará vía API en vez de alojar por su cuenta toda esa infraestructura de agentes
      La infraestructura de ingeniería basada en agentes todavía está en una etapa muy temprana, así que también parece que habrá muchas oportunidades laborales nuevas en los próximos 3~5 años

    • Visto con optimismo, también está el hecho de que cuanto más barato es producir algo (por ejemplo, código), más crece la demanda de eso
      Puede que personas no desarrolladoras pasen a ocupar un rol más de gestión, pero en mi experiencia, cuanto más importante es una tarea, más tiende la gente a querer confiársela a una persona confiable (humana)

    • Pienso que se podría comparar a los desarrolladores de software con caballos, y a nuevos agentes-modelo como Codex o Claude Code con automóviles
      Me pregunto si encaja esa idea de que algunos caballos se conviertan en conductores de autos, mientras otros queden desempleados porque ya no hace falta que tiren del carro

  • No pude encontrar ningún lugar donde esté organizada la lista de lenguajes compatibles
    Ni en la presentación oficial ni en las reseñas aparece explicado correctamente, y casi todo se limita a ejemplos como corregir typos en páginas web

  • Parece algo que se puede armar rapidísimo en una semana con gptel-tool

 
horace 2025-05-27

¡Así que sirve mucho para usarlo como sirviente!