- En la comunidad de Reddit r/codex se está llevando a cabo una discusión que compara el rendimiento de ambos modelos para programar, y la gran mayoría de los usuarios actualmente respalda la ventaja de GPT 5.5
- GPT 5.5 destaca en estabilidad y precisión, mientras que Opus 4.7 recibe muchas quejas por la reciente caída de rendimiento y los límites de uso
- También hay evaluaciones que dicen que Opus 4.7 todavía mantiene una ligera ventaja en el área de frontend/diseño de UI
- Varios usuarios señalan un ajuste a la baja del rendimiento de Claude (Opus) por falta de recursos de cómputo y plantean dudas sobre su confiabilidad
- Como el rendimiento de los modelos de IA sigue mejorando, también se plantea que, a largo plazo, criterios como la accesibilidad, el precio, las restricciones de uso y las políticas de censura podrían ser más importantes que la ventaja actual
Comparación general del rendimiento para programar
- La mayoría de los comentarios coincide en que GPT 5.5 lleva ventaja en código/programación en general
- GPT 5.5 es rápido, capaz y supera a Opus 4.7 en atención a los detalles
- GPT 5.5 es eficaz corrigiendo bugs y detectando dependencias faltantes
- Aunque algunas opiniones dicen que la capacidad pura de programación de Opus 4.7 es similar, también se le atribuye una tendencia a ser "perezoso", haciendo solo el trabajo mínimo en algunos casos
- GPT 5.5 tiende a evaluar el alcance del impacto del código y entender las consideraciones antes de actuar, mientras que Opus 4.7 suele inclinarse por producir rápidamente una solución intermedia
UI/diseño frontend
- En tareas de diseño y frontend, Opus 4.7 muestra resultados ligeramente mejores
- Sin embargo, también existe un caso en que GPT 5.5 implementó el diseño de un sitio web para una banda de forma casi perfecta en one-shot, solo con el logo
- El trabajo de UI/UX en Codex varía según la calidad del prompting y si se proporcionan pistas visuales
- Se recomienda como estrategia usar GPT 5.5 para construir la base y la estructura, y luego Opus 4.7 para pulir el diseño frontend
- También se propone usar herramientas gratuitas como Meta Muse Spark para complementar la parte de UI
Problemas de estabilidad y límites de uso en Opus 4.7
- Está muy extendida la percepción de que Opus 4.7 fue ajustado a la baja porque los recursos de cómputo se volvieron insuficientes ante el aumento de nuevos usuarios
- Hay muchas quejas de que 4.7 (y 4.6) fueron debilitados repetidamente (nerfed)
- Hay reportes de muchas alucinaciones (hallucinations) en el modo max effort de Opus 4.7
- Hubo un caso en que un solo prompt inconcluso en una sesión de 18 minutos consumió 5 horas de límite de uso
- Se considera que el límite de uso de Opus dentro de la suscripción Claude Pro de $20 es muy estricto
Ventajas y desventajas de GPT 5.5
- GPT 5.5 mantiene una calidad consistente, estable y sin regresiones de rendimiento
- Hay usuarios que afirman no haber detectado todavía generación de información falsa
- Aun así, también tiene una tendencia "perezosa" a hacer solo lo mínimo indicado en el prompt, por lo que requiere prompts detallados o un proceso previo de planificación y preguntas y respuestas
- Tiende a consumir más tokens
- Frente a GPT 5.4 (suscripción de $20), 5.5 consume el doble del límite de uso mientras que la mejora en benchmarks ronda solo entre 2% y 5%, por lo que también hay dudas sobre su relación costo-beneficio
Comparación de precios y suscripciones
- Para uso individual, hay opiniones que consideran que la suscripción ChatGPT Pro de $100 ofrece muy buena relación costo-beneficio
- Se recomienda la estrategia de combinar Codex + Kimi de $10 o Gemini de $22 para complementar el trabajo de UI
- Si ya se usa almacenamiento de Google, Gemini queda en la práctica en unos $10~15
- También hay usuarios que están considerando cambiar por completo de una cuenta Claude Max a GPT Plus
Perspectiva a largo plazo
- Se espera que en pocos meses todos los modelos, incluidos los chinos, alcancen como mínimo el nivel de Opus 4.6 y posiblemente se ofrezcan a menor precio
- Más que el rendimiento puro del modelo, se proyecta que la accesibilidad, el precio, los límites de uso, la censura y la capacidad de comprensión del contexto serán los factores diferenciales más importantes
- Aunque hoy GPT 5.5 va adelante, también existe la preocupación de que, así como Claude bajó de nivel tras su mejor momento, Codex también podría sufrir pronto un ajuste a la baja de rendimiento
- También hay interés en compararlo con otros modelos como Kimi 2.6, GLM y MiniMax
16 comentarios
Creen que si le bajan el rendimiento con un parche silencioso nadie se va a dar cuenta, pero la verdad es que la intuición de la gente es más aguda de lo que parece, así que si junto mi intuición con lo que comenta la gente de la comunidad, la respuesta sale de inmediato.
"Entonces, ¿y tú qué puedes hacer? jajaja"; al final no queda de otra más que usarlo....
Siempre usé Claude como principal desde la versión 3.5, pero desde la 5.5 empecé a usar GPT como principal. La verdad, está bastante bien.
¿Qué te parece usar Claude solo para planificar y Codex solo para ejecutar?
Últimamente yo también lo estoy haciendo así. Pero la política de sandbox de Codex CLI es demasiado estricta, así que resulta bastante incómodo dejarle también el build y las pruebas.
Los dos se expresan de la patada y eso sí que da coraje. Por cierto, los dos también son flojos: hasta se saltan cosas de lo que les pides.
Esto es totalmente parecido a lo que yo sentí, así que estoy pagando el plan de 100 dólares de GPT para usarlo.
Y estoy pensando si bajar Claude de 200 dólares al de 100.
codex 5.4 hablaba coreano de forma rara, pero en rendimiento ya estaba por encima de opus 4.6 y opus 4.7 (esa forma rara de hablar era una barrera de entrada / cosas como "he abierto", "he cerrado", "empujaré", etc.)
codex 5.5 también normalizó la forma de hablar y se volvió mucho más meticuloso e inteligente. opus 4.7 = se siente muy flojo y se nota muchísimo que intenta ahorrar costos de razonamiento; incluso da la impresión de que retrocedió frente a opus 4.6
Si con el modelo exclusivo de codex 5.3 de verdad se sentía como hablar con un subordinado que no tenía mucha labia pero programaba bien,
con 5.4 empezó a hablar un poco más y desde 5.5 parece que ya agarró la onda a medias.
Todavía hay cosas raras, como que llame
contracta la API, o que a veces se ponga a mezclar inglés y coreano de forma loquísima, así que toca escribirle algo como "explícalo de forma fácil y, si puedes, casi sin usar inglés".Aun así, en rendimiento para sacar código, por sensación, creo que desde 5.4 ya superó a Opus. Ya salió Opus 4.7, pero ni siquiera lo probé por encimita. Se veía demasiado obvio que iba a ser otra vez marketing al estilo de "Anthropic".
Más bien, empecé a notar que Opus 4.6 y 4.7 empezaron a sonar raros en coreano jajaja
Si ya construiste tu harness con Claude, Claude te conviene más; pero si recién empiezas a usarlo, GPT me pareció mejor. En relación costo-beneficio, GPT le gana por mucho. Incluso el plan de 20 dólares es suficiente.
Creo que para quienes ya venían desarrollando, GPT 5.5 es mejor.
Para quienes no son desarrolladores, diría que Claude es mejor.
Pero tampoco hace falta debatirlo tanto.
Al final, lo mejor es crear cosas útiles..
En general, parece que el consenso es que GPT 5.5 es superior. Solo he usado Claude Code (Opus 4.7), pero... creo que ya va siendo hora de probar Codex en serio.
De hecho, desde GPT-5 ya tenía ventaja en todo excepto en el diseño front-end.
La comunidad simplemente va bastante lenta..
Estoy de acuerdo
Mientras tanto, lo que yo percibía en la práctica y la reacción de la comunidad eran opuestas, así que había estado sintiendo una brecha.
Así es.
Hace un año recomendaba muchísimo Claude, pero últimamente recomiendo muchísimo la app de Codex.