- Pasé 3 meses programando principalmente con Claude/Anthropic, pero en tareas a escala de repo la confiabilidad bajó y terminé necesitando un flujo de trabajo aparte para supervisarlo
- En la etapa de 4.7 alucinaba que algo estaba terminado cuando la implementación real era de apenas ~40%, y mostraba demasiada confianza alrededor de stubs/placeholders
- Incluso pagando Max x20, el aumento en consumo de tokens y en carga de supervisión terminó pesando más que la productividad, así que el 12 de mayo me cambié a GPT-5.5 + Codex
- Codex entiende mejor el código adyacente sin prompts excesivos, detecta mejor las regresiones y volvió manejables el bucle de lint/tests y los refactors grandes
- La migración prácticamente se redujo a mover CLAUDE.md→AGENTS.md y mantener los hooks, y en este flujo de trabajo no pienso volver atrás
Cómo cambió mi flujo de desarrollo después de pasar de Claude a Codex
- Durante los últimos 3 meses programé principalmente con Claude/Anthropic, y cuando salió Opus 4.6 se sentía fuerte en comprensión de arquitectura, manejo de contexto grande e implementación rápida de funciones
- Con el tiempo, la confiabilidad bajó en tareas a escala de repo, y terminé necesitando un flujo de trabajo separado para vigilar al modelo
- varios agentes para revisar regresiones en archivos adyacentes
- un agente “senior reviewer” en cada commit importante
- validación continua para revisar drift en la implementación e implementaciones incompletas
- un pipeline de lint/tests para atrapar tareas que el modelo aseguraba con confianza que ya estaban terminadas
- En la etapa de 4.7 los problemas crecieron todavía más en mi flujo de trabajo personal
- alucinaba que una función estaba terminada cuando la implementación real rondaba apenas el 40%
- mostraba una confianza infundada alrededor de stubs/placeholders
- aparecían conductas evasivas como decir que “se necesita una sesión aparte” o estimar plazos excesivos incluso para cambios realistas
- Estaba pagando Max x20, pero más que una mejora de productividad lo que sentí fue un aumento en el consumo de tokens y en la carga de supervisión
- Al final, el 12 de mayo me pasé a GPT-5.5 + Codex, y programar con IA por primera vez en meses volvió a sentirse más cómodo que estresante
Ventajas que sentí con GPT-5.5 + Codex
- Codex entiende bien el código adyacente incluso sin prompts excesivos y detecta mejor las regresiones
- El bucle de retroalimentación de lint/tests funciona de forma más estricta, y los refactors a gran escala de verdad se vuelven manejables
- Las decisiones de infraestructura y los cambios de arquitectura avanzan con una dirección consistente en vez de sentirse fragmentados, y se acerca más a terminar el trabajo de verdad que a fingir que ya quedó listo
- Casi siempre evito
/fastporque parece que agotaría rápido el uso semanal, pero incluso solo con high/xhigh la mejora de productividad fue grande - Si metes el zip del repositorio completo en GPT-5.5 Pro extended thinking, ayuda a resolver problemas con los que otros modelos fallaron repetidamente
- La migración tampoco tuvo mucha fricción
- No significa que todo el mundo deba cambiarse de inmediato, pero en este flujo de trabajo no planeo volver por ahora
1 comentarios
Opiniones de Hacker News
Las herramientas de IA no son algo para hinchar por un solo lado como si eligieras tu equipo deportivo favorito. Lo ideal es aprender ambas, o mejor aún todas, y usar la que mejor te funcione esta semana
El próximo mes puede ser distinto. Yo pago dos suscripciones, pero también entiendo que no todo el mundo puede hacerlo
Todas las herramientas están bien, algunas personas obtienen mejores resultados con una u otra y, como dijiste, la próxima semana todo podría cambiar por completo
Eso sí, también uso Gemini porque encontré en Kinguin un cupón premium de 18 meses por 15€, así que cuando llego al límite de cuota, le paso algunas tareas a Gemini
Opus 4.7 da la impresión de estar enfocado en parecer útil y productivo, y en el rendimiento para la galería
Codex sí saca el trabajo adelante de verdad
Ojalá pudieras compartir un poco más tu flujo de trabajo. Me gustaría aprender qué haces y cómo lo haces para intentar replicarlo
También me intriga por qué metes todo el repositorio en GPT y qué tecnologías y libros usas
Yo suelo poner el prompt y esperar a que Codex termine, y luego vuelvo a preguntarle si hizo esas tareas periféricas y obvias que antes hacía yo mismo. Ahí recién las resuelve, y después dedico tiempo a
/reviewy a pruebas manuales antes de pasar otra vez a unidades de trabajo pequeñas. Para funciones grandes uso plan, también uso la extensión de VSCode, y probé tanto 5.4 como 5.5, pero siento que la primera me queda mejor¿Cómo se pueden usar aquí modelos que no sean de OpenAI?
El problema de Claude es que no sigue ejecutándose como Codex. Claude puede que sea mejor, pero Codex intenta completar la tarea hasta el final
Claude simplemente se detiene y, aunque tuviera esa capacidad, probablemente sería demasiado caro, así que no habría mucha diferencia. Tal vez sea parecido o incluso mejor, pero ya no lo tengo claro y ya no lo uso. 4.5 era lo mejor cuando salió por primera vez
A mí también Codex me pareció magia, pero solo espera a que se rompa. Hasta hace 3 días yo sentía lo mismo, pero ahora sinceramente me parece que se puso peor que Claude
Lo uso 24 horas con 5 cuentas Pro, así que lo digo con certeza: ya no es como hace una semana, ahora de verdad está mucho peor