24 puntos por GN⁺ 3 일 전 | 16 comentarios | Compartir por WhatsApp
  • En la comunidad Reddit r/codex se está llevando a cabo una discusión comparando el rendimiento de ambos modelos para programar, y la mayoría de los usuarios actualmente respalda la ventaja de GPT 5.5
  • GPT 5.5 destaca por su estabilidad y precisión, mientras que Opus 4.7 recibe muchas quejas por una caída reciente en el rendimiento y por problemas con los límites de uso
  • También hay opiniones de que Opus 4.7 aún mantiene una ligera ventaja en el área de frontend/diseño de UI
  • Varios usuarios señalan un posible déficit de recursos de cómputo en Claude (Opus), lo que habría provocado un ajuste a la baja en su rendimiento (lobotomize), y plantean dudas sobre su confiabilidad
  • También se plantea que, como el rendimiento de los modelos de IA sigue mejorando, a largo plazo podrían importar más criterios como accesibilidad, precio, límites de uso y políticas de censura que la ventaja actual

Comparación general de rendimiento para programación

  • La mayoría de los comentarios coincide en que GPT 5.5 va por delante en código/programación en general
  • GPT 5.5 es rápido, capaz y presta más atención a los detalles que Opus 4.7
  • GPT 5.5 es efectivo para corregir bugs y detectar dependencias faltantes
  • Algunos opinan que la capacidad pura de programación de Opus 4.7 es similar, pero que tiene una tendencia a ser "flojo" (lazy), haciendo solo el trabajo mínimo en algunos casos
  • GPT 5.5 tiende a evaluar el alcance del impacto del código y entender las consideraciones antes de actuar, mientras que Opus 4.7 suele intentar producir rápidamente una solución intermedia

UI/diseño frontend

  • En tareas de diseño y frontend, Opus 4.7 muestra resultados ligeramente mejores
  • Sin embargo, también hay casos donde GPT 5.5 implementó un diseño de sitio web para una banda de forma casi perfecta en un solo intento (one-shot) usando solo el logo
  • En trabajos de UI/UX con Codex, los resultados cambian según la calidad del prompt y si se proporcionan pistas visuales
  • Como estrategia, se recomienda usar GPT 5.5 para construir la base y la estructura, y luego Opus 4.7 para pulir el diseño frontend
  • También existe la propuesta de usar herramientas gratuitas como Meta Muse Spark para complementar la parte de UI

Problemas de estabilidad y límites de uso de Opus 4.7

  • Está muy extendida la percepción de que Opus 4.7 sufrió una reducción de rendimiento porque faltan recursos de cómputo ante el aumento repentino de nuevos usuarios
  • Hay muchas quejas de que 4.7 (y también 4.6) han sido debilitados repetidamente (nerfed)
  • Se reporta que Opus 4.7 tiene muchas alucinaciones (hallucination) en el modo max effort
  • Hubo un caso donde un solo prompt incompleto en una sesión de 18 minutos consumió el equivalente a 5 horas de límite de uso
  • Se considera que los límites de uso de Opus dentro de la suscripción Claude Pro de $20 son muy estrictos

Ventajas y desventajas de GPT 5.5

  • GPT 5.5 mantiene una calidad consistente, siendo estable y sin regresiones (regress) en el rendimiento
  • Algunos usuarios afirman que aún no han detectado que genere información falsa
  • Aun así, tiene una tendencia "floja" a hacer solo lo mínimo indicado explícitamente en el prompt, por lo que suele requerir prompts detallados o un proceso previo de planificación y preguntas y respuestas
  • Tiende a consumir más tokens
  • Frente a GPT 5.4 (suscripción de $20), se cuestiona su relación costo-beneficio porque 5.5 consume el doble del límite de uso mientras que la mejora en benchmarks sería de apenas 2~5%

Comparación de precio y suscripción

  • Para uso individual, hay opiniones de que la suscripción ChatGPT Pro de $100 ofrece una muy buena relación costo-beneficio
  • Se recomienda la estrategia de combinar Codex + Kimi de $10 o Gemini de $22 para complementar el trabajo de UI
  • Si ya se usa almacenamiento de Google, Gemini queda efectivamente en unos $10~15
  • También hay usuarios considerando migrar por completo de una cuenta Claude Max a GPT Plus

Perspectiva a largo plazo

  • Se estima que en unos meses todos los modelos, incluidos los chinos, alcanzarán al menos el nivel de Opus 4.6, posiblemente a un precio más bajo
  • Se espera que, más que el rendimiento puro del modelo, factores como accesibilidad, precio, límites de uso, censura y capacidad de entender el contexto sean los verdaderos diferenciadores
  • Aunque GPT 5.5 va adelante hoy, existe la preocupación de que, así como Claude perdió rendimiento después de su mejor época, Codex también podría sufrir pronto una reducción de capacidades
  • También hay interés en compararlo con otros modelos como Kimi 2.6, GLM y MiniMax

16 comentarios

 
dicebattle 1 일 전

Creen que si le bajan el rendimiento con un parche silencioso nadie se va a dar cuenta, pero la verdad es que la intuición de la gente es más aguda de lo que parece, así que si junto mi intuición con lo que comenta la gente de la comunidad, la respuesta sale de inmediato.

"Entonces, ¿y tú qué puedes hacer? jajaja"; al final no queda de otra más que usarlo....

 
funnycat 2 일 전

Siempre usé Claude como principal desde la versión 3.5, pero desde la 5.5 empecé a usar GPT como principal. La verdad, está bastante bien.

 
tkddls8848 2 일 전

¿Qué te parece usar Claude solo para planificar y Codex solo para ejecutar?

 
cosine20 2 일 전

Últimamente yo también lo estoy haciendo así. Pero la política de sandbox de Codex CLI es demasiado estricta, así que resulta bastante incómodo dejarle también el build y las pruebas.

 
kaydash 2 일 전

Los dos se expresan de la patada y eso sí que da coraje. Por cierto, los dos también son flojos: hasta se saltan cosas de lo que les pides.

 
jimmy2056 2 일 전

Esto es totalmente parecido a lo que yo sentí, así que estoy pagando el plan de 100 dólares de GPT para usarlo.
Y estoy pensando si bajar Claude de 200 dólares al de 100.

 
mse9000 2 일 전

codex 5.4 hablaba coreano de forma rara, pero en rendimiento ya estaba por encima de opus 4.6 y opus 4.7 (esa forma rara de hablar era una barrera de entrada / cosas como "he abierto", "he cerrado", "empujaré", etc.)

codex 5.5 también normalizó la forma de hablar y se volvió mucho más meticuloso e inteligente. opus 4.7 = se siente muy flojo y se nota muchísimo que intenta ahorrar costos de razonamiento; incluso da la impresión de que retrocedió frente a opus 4.6

 
dicebattle 1 일 전

Si con el modelo exclusivo de codex 5.3 de verdad se sentía como hablar con un subordinado que no tenía mucha labia pero programaba bien,
con 5.4 empezó a hablar un poco más y desde 5.5 parece que ya agarró la onda a medias.
Todavía hay cosas raras, como que llame contract a la API, o que a veces se ponga a mezclar inglés y coreano de forma loquísima, así que toca escribirle algo como "explícalo de forma fácil y, si puedes, casi sin usar inglés".

Aun así, en rendimiento para sacar código, por sensación, creo que desde 5.4 ya superó a Opus. Ya salió Opus 4.7, pero ni siquiera lo probé por encimita. Se veía demasiado obvio que iba a ser otra vez marketing al estilo de "Anthropic".

 
cosine20 2 일 전

Más bien, empecé a notar que Opus 4.6 y 4.7 empezaron a sonar raros en coreano jajaja

 
bungker 2 일 전

Si ya construiste tu harness con Claude, Claude te conviene más; pero si recién empiezas a usarlo, GPT me pareció mejor. En relación costo-beneficio, GPT le gana por mucho. Incluso el plan de 20 dólares es suficiente.

 
memevibe82 2 일 전

Creo que para quienes ya venían desarrollando, GPT 5.5 es mejor.

Para quienes no son desarrolladores, diría que Claude es mejor.

Pero tampoco hace falta debatirlo tanto.

Al final, lo mejor es crear cosas útiles..

 
rkjun 2 일 전

En general, parece que el consenso es que GPT 5.5 es superior. Solo he usado Claude Code (Opus 4.7), pero... creo que ya va siendo hora de probar Codex en serio.

 
brainer 2 일 전

De hecho, desde GPT-5 ya tenía ventaja en todo excepto en el diseño front-end.

La comunidad simplemente va bastante lenta..

 
unknowncyder 1 일 전

Estoy de acuerdo
Mientras tanto, lo que yo percibía en la práctica y la reacción de la comunidad eran opuestas, así que había estado sintiendo una brecha.

 
love7peace 2 일 전

Así es.

 
treestae 1 일 전

Hace un año recomendaba muchísimo Claude, pero últimamente recomiendo muchísimo la app de Codex.