25 puntos por GN⁺ 22 일 전 | 16 comentarios | Compartir por WhatsApp
  • En la comunidad de Reddit r/codex se está llevando a cabo una discusión que compara el rendimiento de ambos modelos para programar, y la gran mayoría de los usuarios actualmente respalda la ventaja de GPT 5.5
  • GPT 5.5 destaca en estabilidad y precisión, mientras que Opus 4.7 recibe muchas quejas por la reciente caída de rendimiento y los límites de uso
  • También hay evaluaciones que dicen que Opus 4.7 todavía mantiene una ligera ventaja en el área de frontend/diseño de UI
  • Varios usuarios señalan un ajuste a la baja del rendimiento de Claude (Opus) por falta de recursos de cómputo y plantean dudas sobre su confiabilidad
  • Como el rendimiento de los modelos de IA sigue mejorando, también se plantea que, a largo plazo, criterios como la accesibilidad, el precio, las restricciones de uso y las políticas de censura podrían ser más importantes que la ventaja actual

Comparación general del rendimiento para programar

  • La mayoría de los comentarios coincide en que GPT 5.5 lleva ventaja en código/programación en general
  • GPT 5.5 es rápido, capaz y supera a Opus 4.7 en atención a los detalles
  • GPT 5.5 es eficaz corrigiendo bugs y detectando dependencias faltantes
  • Aunque algunas opiniones dicen que la capacidad pura de programación de Opus 4.7 es similar, también se le atribuye una tendencia a ser "perezoso", haciendo solo el trabajo mínimo en algunos casos
  • GPT 5.5 tiende a evaluar el alcance del impacto del código y entender las consideraciones antes de actuar, mientras que Opus 4.7 suele inclinarse por producir rápidamente una solución intermedia

UI/diseño frontend

  • En tareas de diseño y frontend, Opus 4.7 muestra resultados ligeramente mejores
  • Sin embargo, también existe un caso en que GPT 5.5 implementó el diseño de un sitio web para una banda de forma casi perfecta en one-shot, solo con el logo
  • El trabajo de UI/UX en Codex varía según la calidad del prompting y si se proporcionan pistas visuales
  • Se recomienda como estrategia usar GPT 5.5 para construir la base y la estructura, y luego Opus 4.7 para pulir el diseño frontend
  • También se propone usar herramientas gratuitas como Meta Muse Spark para complementar la parte de UI

Problemas de estabilidad y límites de uso en Opus 4.7

  • Está muy extendida la percepción de que Opus 4.7 fue ajustado a la baja porque los recursos de cómputo se volvieron insuficientes ante el aumento de nuevos usuarios
  • Hay muchas quejas de que 4.7 (y 4.6) fueron debilitados repetidamente (nerfed)
  • Hay reportes de muchas alucinaciones (hallucinations) en el modo max effort de Opus 4.7
  • Hubo un caso en que un solo prompt inconcluso en una sesión de 18 minutos consumió 5 horas de límite de uso
  • Se considera que el límite de uso de Opus dentro de la suscripción Claude Pro de $20 es muy estricto

Ventajas y desventajas de GPT 5.5

  • GPT 5.5 mantiene una calidad consistente, estable y sin regresiones de rendimiento
  • Hay usuarios que afirman no haber detectado todavía generación de información falsa
  • Aun así, también tiene una tendencia "perezosa" a hacer solo lo mínimo indicado en el prompt, por lo que requiere prompts detallados o un proceso previo de planificación y preguntas y respuestas
  • Tiende a consumir más tokens
  • Frente a GPT 5.4 (suscripción de $20), 5.5 consume el doble del límite de uso mientras que la mejora en benchmarks ronda solo entre 2% y 5%, por lo que también hay dudas sobre su relación costo-beneficio

Comparación de precios y suscripciones

  • Para uso individual, hay opiniones que consideran que la suscripción ChatGPT Pro de $100 ofrece muy buena relación costo-beneficio
  • Se recomienda la estrategia de combinar Codex + Kimi de $10 o Gemini de $22 para complementar el trabajo de UI
  • Si ya se usa almacenamiento de Google, Gemini queda en la práctica en unos $10~15
  • También hay usuarios que están considerando cambiar por completo de una cuenta Claude Max a GPT Plus

Perspectiva a largo plazo

  • Se espera que en pocos meses todos los modelos, incluidos los chinos, alcancen como mínimo el nivel de Opus 4.6 y posiblemente se ofrezcan a menor precio
  • Más que el rendimiento puro del modelo, se proyecta que la accesibilidad, el precio, los límites de uso, la censura y la capacidad de comprensión del contexto serán los factores diferenciales más importantes
  • Aunque hoy GPT 5.5 va adelante, también existe la preocupación de que, así como Claude bajó de nivel tras su mejor momento, Codex también podría sufrir pronto un ajuste a la baja de rendimiento
  • También hay interés en compararlo con otros modelos como Kimi 2.6, GLM y MiniMax

16 comentarios

 
dicebattle 21 일 전

Creen que si le bajan el rendimiento con un parche silencioso nadie se va a dar cuenta, pero la verdad es que la intuición de la gente es más aguda de lo que parece, así que si junto mi intuición con lo que comenta la gente de la comunidad, la respuesta sale de inmediato.

"Entonces, ¿y tú qué puedes hacer? jajaja"; al final no queda de otra más que usarlo....

 
funnycat 21 일 전

Siempre usé Claude como principal desde la versión 3.5, pero desde la 5.5 empecé a usar GPT como principal. La verdad, está bastante bien.

 
tkddls8848 21 일 전

¿Qué te parece usar Claude solo para planificar y Codex solo para ejecutar?

 
cosine20 21 일 전

Últimamente yo también lo estoy haciendo así. Pero la política de sandbox de Codex CLI es demasiado estricta, así que resulta bastante incómodo dejarle también el build y las pruebas.

 
kaydash 21 일 전

Los dos se expresan de la patada y eso sí que da coraje. Por cierto, los dos también son flojos: hasta se saltan cosas de lo que les pides.

 
jimmy2056 22 일 전

Esto es totalmente parecido a lo que yo sentí, así que estoy pagando el plan de 100 dólares de GPT para usarlo.
Y estoy pensando si bajar Claude de 200 dólares al de 100.

 
mse9000 22 일 전

codex 5.4 hablaba coreano de forma rara, pero en rendimiento ya estaba por encima de opus 4.6 y opus 4.7 (esa forma rara de hablar era una barrera de entrada / cosas como "he abierto", "he cerrado", "empujaré", etc.)

codex 5.5 también normalizó la forma de hablar y se volvió mucho más meticuloso e inteligente. opus 4.7 = se siente muy flojo y se nota muchísimo que intenta ahorrar costos de razonamiento; incluso da la impresión de que retrocedió frente a opus 4.6

 
dicebattle 21 일 전

Si con el modelo exclusivo de codex 5.3 de verdad se sentía como hablar con un subordinado que no tenía mucha labia pero programaba bien,
con 5.4 empezó a hablar un poco más y desde 5.5 parece que ya agarró la onda a medias.
Todavía hay cosas raras, como que llame contract a la API, o que a veces se ponga a mezclar inglés y coreano de forma loquísima, así que toca escribirle algo como "explícalo de forma fácil y, si puedes, casi sin usar inglés".

Aun así, en rendimiento para sacar código, por sensación, creo que desde 5.4 ya superó a Opus. Ya salió Opus 4.7, pero ni siquiera lo probé por encimita. Se veía demasiado obvio que iba a ser otra vez marketing al estilo de "Anthropic".

 
cosine20 21 일 전

Más bien, empecé a notar que Opus 4.6 y 4.7 empezaron a sonar raros en coreano jajaja

 
bungker 22 일 전

Si ya construiste tu harness con Claude, Claude te conviene más; pero si recién empiezas a usarlo, GPT me pareció mejor. En relación costo-beneficio, GPT le gana por mucho. Incluso el plan de 20 dólares es suficiente.

 
memevibe82 22 일 전

Creo que para quienes ya venían desarrollando, GPT 5.5 es mejor.

Para quienes no son desarrolladores, diría que Claude es mejor.

Pero tampoco hace falta debatirlo tanto.

Al final, lo mejor es crear cosas útiles..

 
rkjun 22 일 전

En general, parece que el consenso es que GPT 5.5 es superior. Solo he usado Claude Code (Opus 4.7), pero... creo que ya va siendo hora de probar Codex en serio.

 
brainer 22 일 전

De hecho, desde GPT-5 ya tenía ventaja en todo excepto en el diseño front-end.

La comunidad simplemente va bastante lenta..

 
unknowncyder 21 일 전

Estoy de acuerdo
Mientras tanto, lo que yo percibía en la práctica y la reacción de la comunidad eran opuestas, así que había estado sintiendo una brecha.

 
love7peace 21 일 전

Así es.

 
treestae 20 일 전

Hace un año recomendaba muchísimo Claude, pero últimamente recomiendo muchísimo la app de Codex.