GPT-5.5 vs GPT-5.4 vs Opus 4.7 - comparación de benchmarks con 56 tareas reales de programación

(reddit.com)

1 puntos por GN⁺ 2 시간 전 | 1 comentarios | Compartir por WhatsApp

Se publicaron los resultados de un benchmark que compara la calidad de los parches de GPT-5.5, GPT-5.4 y Opus 4.7 en 56 tareas reales de programación extraídas de dos repositorios open source (Zod, graphql-go-tools)
GPT-5.5 obtuvo la mejor calificación en todas las métricas: tasa de pruebas aprobadas, equivalencia con parches humanos y tasa de aprobación en code review (clean pass)
Opus 4.7 genera los parches más pequeños y tiene bajo riesgo de footprint, pero muestra un patrón de fallas con implementaciones incompletas por omitir trabajo complementario
Aprobar pruebas por sí solo no basta para juzgar la calidad de un parche; hace falta una evaluación multicapa que incluya si el revisor lo aceptaría
Como el ranking del mismo modelo cambia según el repositorio, ejecutar benchmarks sobre tu propio codebase es clave para elegir modelo

Resumen del benchmark y entorno de ejecución

Se compararon los tres modelos en 56 tareas reales de programación: 27 de Zod y 29 de graphql-go-tools
Cada modelo se ejecutó con la configuración por defecto en su arnés oficial: Opus 4.7 con Claude Code, y GPT-5.4 y GPT-5.5 con OpenAI Codex CLI
El nivel de reasoning se unificó en high para todos los modelos
Se usó el framework de evaluación Stet para calificar en múltiples capas, no solo si pasaban las pruebas, sino también equivalencia de comportamiento, aceptación en code review, riesgo de footprint y rúbricas de craftsmanship y discipline
Se hizo una sola ejecución por tarea con una sola semilla, y se usó GPT-5.4 como modelo juez para equivalencia y rúbricas

Resumen de resultados generales

GPT-5.5 quedó primero en todas las métricas con 38/56 pruebas aprobadas, 40/56 en equivalencia con parches humanos y 28/56 clean pass
Opus 4.7 obtuvo 33/56 en pruebas, 19/56 en equivalencia y 10/56 en clean pass, con la puntuación de calidad más baja
- Aun así, tuvo el riesgo de footprint promedio más bajo, 0.20, lo que le da ventaja en tamaño de parche
GPT-5.4 registró 31/56 pruebas aprobadas, 35/56 en equivalencia y 11/56 clean pass
- Fue el más barato con $2.39 por tarea, pero eso no compensa la diferencia en clean pass
GPT-5.5 también fue el más eficiente, con un tiempo promedio por tarea de 6 minutos 56 segundos, 201.8M tokens de entrada y 0.72M tokens de salida

Análisis por repositorio

Zod (27 tareas): GPT-5.5 y Opus empataron con 12 pruebas aprobadas, pero GPT-5.5 superó a Opus en calidad de revisión con 10 clean pass vs 5
- Opus fue mejor en tamaño de diff, así que en Zod hay un trade-off real
graphql-go-tools (29 tareas): GPT-5.5 dominó con 26 pruebas aprobadas y 18 clean pass
- Opus aprobó 21 pruebas, pero solo logró 5 clean pass, porque su estrategia de parches pequeños llevó a omitir trabajo de integración

Métricas detalladas de calidad

Aprobación en code review: GPT-5.5 33/56, GPT-5.4 16/56, Opus 11/56
Promedio de code review (exactitud + seguridad ante bugs): GPT-5.5 3.08, GPT-5.4 2.59, Opus 2.33
- Solo en correctness: GPT-5.5 3.16 vs GPT-5.4 2.60 vs Opus 2.11
- Seguridad frente a bugs introducidos: GPT-5.5 3.04 vs GPT-5.4 2.56 vs Opus 2.55
Promedio del calificador personalizado (8 rúbricas): GPT-5.5 2.62, GPT-5.4 2.40, Opus 2.33
Puntuación de craftsmanship (clarity/coherence/robustness): GPT-5.5 fue el mejor en las tres subcategorías
Puntuación de discipline (scope discipline/diff minimality): GPT-5.5 2.36 con una ventaja ligera sobre Opus 2.20
- Aunque Opus va adelante en footprint bruto, GPT-5.5 gana en disciplina relativa a la tarea

Aprobar pruebas no es el criterio final

En Zod, Opus y GPT-5.5 empataron con 12 pruebas aprobadas, pero GPT-5.5 logró 10 clean pass contra 5 de Opus
En graphql-go-tools el mismo patrón se amplifica: GPT-5.5 con 26 pruebas/18 clean pass, Opus con 21 pruebas/5 clean pass
Caso GraphQL PR #1001: los tres modelos aprobaron pruebas y recibieron equivalencia, pero solo GPT-5.5 pasó el code review
- Los otros dos recibieron advertencias por la forma del API, exposición de objetos HTTP crudos y solidez en los límites de hooks

Diferencias concretas detectadas en code review

Trabajo sobre codecs asíncronos y valores por defecto en Zod: los tres modelos fallaron las pruebas
- Opus modificó 8 archivos, pero omitió semántica clave (permitir undefined en valores por defecto y mantener síncrona la definición del codec)
- GPT-5.4 parchó 11 archivos y obtuvo equivalencia, pero restringió en exceso APIs adyacentes (prefault)
- GPT-5.5 también falló las pruebas, pero cubrió de forma más limpia el comportamiento de schema/build, logrando la mejor calificación en exactitud y riesgo de bugs
Validación de compatibilidad con Apollo en GraphQL (PR #1169): los tres modelos aprobaron pruebas, pero solo GPT-5.5 pasó tanto equivalencia como review
- Opus modificó 11 archivos y omitió validación de hojas enum/wrapping scalar
- GPT-5.4 modificó 12 archivos y expandió el alcance de más con metadatos de validación incondicionales
- GPT-5.5 modificó 10 archivos (6 fuera de tests), fue el más pequeño y aun así implementó con precisión el comportamiento objetivo

Características y límites de Opus 4.7

Genera parches conservadores, precisos y de bajo footprint
Rinde bien cuando la tarea es local y la superficie de cambio es reducida
Patrón repetido de falla: implementa el comportamiento principal pero no completa el trabajo complementario (companion work)
- Caso del árbol paralelo Node/Deno en Zod: Opus modificó solo 4 archivos y aprobó pruebas, pero GPT-5.5 cambió 11 archivos incluyendo la superficie de despliegue paralela, logrando equivalencia con el parche humano
En graphql-go-tools fue más grave: en PR #1155 (muchos cambios en la superficie del motor, incluyendo campos escalares repetidos del datasource gRPC), Opus ni siquiera logró generar el parche, mientras que GPT-5.5 sí pasó pruebas, equivalencia y review
Distinción clave: el parche pequeño de Opus representa disciplina en tareas locales, pero implementación incompleta en tareas de integración

Qué cambió de GPT-5.4 a GPT-5.5

GPT-5.4 suele encontrar la dirección correcta, pero falla en la ejecución
- En Zod obtuvo 18 equivalencias (igual que GPT-5.5), pero solo 9 pruebas aprobadas
GPT-5.5 conserva mejor el comportamiento de integración amplio y produce menos parches rotos
Comparaciones concretas:
- Generador schema→TypeScript: Opus y GPT-5.5 implementaron un visitor recursivo, mientras que GPT-5.4 clasificó mal la tarea y generó un archivo guía del repositorio
- Arreglo de parser recursivo: ambos modelos GPT usaron un enfoque de seguimiento de conteo de visitas, pero GPT-5.5 fue más conciso al eliminar estado innecesario
- Validación CIDR: GPT-5.5 actualizó también el mirror de Deno, mientras que GPT-5.4 no lo reflejó, causando un problema de higiene del repositorio
En graphql-go-tools PR #1232 (deduplicación de single fetch idénticos + reescritura de referencias de dependencias), solo GPT-5.5 pasó pruebas, equivalencia y review
Resumen del patrón: GPT-5.5 convierte mejor los arreglos locales inteligentes en cambios de repositorio realmente desplegables, haciendo más del trabajo de integración tedioso

Trade-off entre tamaño de parche y costo

Tamaño promedio de parche en graphql-go-tools: GPT-5.5 cerca de 33KB, GPT-5.4 27KB, Opus 19KB
Puntuación de footprint: Opus 0.19, GPT-5.4 0.32, GPT-5.5 0.34
Los parches grandes aumentan la dificultad de revisión, la probabilidad de conflictos y el riesgo de tocar rutas sensibles
- En flujos centrados en auditabilidad, Opus todavía tiene una ventaja práctica
Pero si la diff minimality se evalúa relativa a la tarea, GPT-5.5 queda ligeramente arriba
- La idea central: un parche de 5KB que deja fuera superficie necesaria no es más mínimo que uno de 20KB que sí completa la tarea
Comparación de costos:
- En Zod, Opus y GPT-5.5 fueron similares (Opus $45.53 vs GPT-5.5 $46.69)
- En graphql-go-tools, Opus usó 186.1M tokens de entrada / 934K de salida / 8.56h de tiempo de agente, mientras que GPT-5.5 usó 151.4M / 431K / 4.16h, por lo que fue mucho más eficiente

Resumen del comportamiento por modelo

Opus 4.7 — under-reach: conservador, preciso y de bajo footprint; fuerte en tareas locales pero débil en superficies complementarias que las pruebas no cubren por completo; su modo de falla es “pasó pruebas, pero no hizo el mismo cambio”
GPT-5.4 — forma correcta, ejecución incorrecta: la dirección suele ser buena, pero es inconsistente; aparecen con frecuencia mirrors desactualizados, refactors innecesarios y parches que gustan más al juez que a las pruebas
GPT-5.5 — más amplio, mayor footprint: más completo en superficies de integración, mayor tasa de actualización de código circundante, de aprobación en review y de conversión de intención en código real; el riesgo es que, si falla, falla en más archivos

Diferencias en el comportamiento del agente

En graphql-go-tools, Opus hizo en promedio 3.17 llamadas explícitas de planificación por tarea, mientras que GPT-5.5 hizo 0
Opus hizo 10.2 llamadas de parche por tarea y GPT-5.5 9.9, casi igual
GPT-5.5 ejecutó casi el doble de llamadas al shell y también más llamadas de búsqueda; Opus gastó más presupuesto en planificación y reescritura de parches
En este repositorio, explorar más a fondo el repositorio fue más efectivo que pensar más sobre parches estrechos

Por qué importa este resultado

La pregunta clave no es “qué modelo es mejor”, sino “en este repositorio, con este arnés y para el tipo de trabajo que realmente desplegamos, en qué modelo podemos confiar para sus parches”
En Zod, GPT-5.5 vs Opus muestra una relación de trade-off; en graphql-go-tools, GPT-5.5 tiene una ventaja clara
Los benchmarks públicos suelen aplanar el comportamiento del modelo en un solo número agregado, pero en código real eso se traduce en decisiones de workflow según el codebase y los criterios específicos

Advertencias

Las 56 tareas siguen siendo una muestra pequeña; una sola tarea puede mover varios puntos los porcentajes a nivel repositorio
Todos los modelos se ejecutaron una sola vez por tarea, así que algunos resultados cerrados podrían invertirse al reintentar
El modelo juez de equivalencia y rúbricas fue GPT-5.4, así que puede haber sesgo de familia
- Aun así, GPT-5.5 supera de forma decisiva a GPT-5.4, la ventaja de Opus en footprint se mantiene y muchas fallas de equivalencia de Opus son omisiones concretas de archivos, así que eso no explica por sí solo todo el resultado
Los resultados son condicionales al arnés: Claude Code y Codex CLI difieren en prompt del sistema, loop de planificación y superficie de herramientas
- Si Opus se ejecutara en la API de Codex, o GPT-5.5 en Claude Code, los resultados podrían cambiar
- Estas cifras reflejan el comportamiento del modelo dentro del arnés que usan ingenieros reales

Conclusiones clave

GPT-5.5 es el mejor modelo por defecto para despliegue en estos dos repositorios
Opus 4.7 sigue siendo un modelo de bajo footprint, preferible cuando lo más importante es un diff estrecho
GPT-5.4 tiene el menor costo por tarea, pero eso no alcanza para compensar la brecha en clean pass
Mirar solo las pruebas oculta los resultados más importantes
El ranking del mismo modelo cambia según el repositorio, y esa es precisamente la razón central para hacer benchmarks sobre tu propio repositorio

1 comentarios

shakespeares 1 시간 전

A veces hasta parece que se ponen de acuerdo.

GPT-5.5 vs GPT-5.4 vs Opus 4.7 - comparación de benchmarks con 56 tareas reales de programación

Resumen del benchmark y entorno de ejecución

Resumen de resultados generales

Análisis por repositorio

Métricas detalladas de calidad

Aprobar pruebas no es el criterio final

Diferencias concretas detectadas en code review

Características y límites de Opus 4.7

Qué cambió de GPT-5.4 a GPT-5.5

Trade-off entre tamaño de parche y costo

Resumen del comportamiento por modelo

Diferencias en el comportamiento del agente

Por qué importa este resultado

Advertencias

Conclusiones clave

Lecturas relacionadas

1 comentarios