GPT-5.5 vs GPT-5.4 vs Opus 4.7 - comparación de benchmarks con 56 tareas reales de programación
(reddit.com)- Se publicaron los resultados de un benchmark que compara la calidad de los parches de GPT-5.5, GPT-5.4 y Opus 4.7 en 56 tareas reales de programación extraídas de dos repositorios open source (Zod, graphql-go-tools)
- GPT-5.5 obtuvo la mejor calificación en todas las métricas: tasa de pruebas aprobadas, equivalencia con parches humanos y tasa de aprobación en code review (clean pass)
- Opus 4.7 genera los parches más pequeños y tiene bajo riesgo de footprint, pero muestra un patrón de fallas con implementaciones incompletas por omitir trabajo complementario
- Aprobar pruebas por sí solo no basta para juzgar la calidad de un parche; hace falta una evaluación multicapa que incluya si el revisor lo aceptaría
- Como el ranking del mismo modelo cambia según el repositorio, ejecutar benchmarks sobre tu propio codebase es clave para elegir modelo
Resumen del benchmark y entorno de ejecución
- Se compararon los tres modelos en 56 tareas reales de programación: 27 de Zod y 29 de graphql-go-tools
- Cada modelo se ejecutó con la configuración por defecto en su arnés oficial: Opus 4.7 con Claude Code, y GPT-5.4 y GPT-5.5 con OpenAI Codex CLI
- El nivel de reasoning se unificó en high para todos los modelos
- Se usó el framework de evaluación Stet para calificar en múltiples capas, no solo si pasaban las pruebas, sino también equivalencia de comportamiento, aceptación en code review, riesgo de footprint y rúbricas de craftsmanship y discipline
- Se hizo una sola ejecución por tarea con una sola semilla, y se usó GPT-5.4 como modelo juez para equivalencia y rúbricas
Resumen de resultados generales
- GPT-5.5 quedó primero en todas las métricas con 38/56 pruebas aprobadas, 40/56 en equivalencia con parches humanos y 28/56 clean pass
- Opus 4.7 obtuvo 33/56 en pruebas, 19/56 en equivalencia y 10/56 en clean pass, con la puntuación de calidad más baja
- Aun así, tuvo el riesgo de footprint promedio más bajo, 0.20, lo que le da ventaja en tamaño de parche
- GPT-5.4 registró 31/56 pruebas aprobadas, 35/56 en equivalencia y 11/56 clean pass
- Fue el más barato con $2.39 por tarea, pero eso no compensa la diferencia en clean pass
- GPT-5.5 también fue el más eficiente, con un tiempo promedio por tarea de 6 minutos 56 segundos, 201.8M tokens de entrada y 0.72M tokens de salida
Análisis por repositorio
- Zod (27 tareas): GPT-5.5 y Opus empataron con 12 pruebas aprobadas, pero GPT-5.5 superó a Opus en calidad de revisión con 10 clean pass vs 5
- Opus fue mejor en tamaño de diff, así que en Zod hay un trade-off real
- graphql-go-tools (29 tareas): GPT-5.5 dominó con 26 pruebas aprobadas y 18 clean pass
- Opus aprobó 21 pruebas, pero solo logró 5 clean pass, porque su estrategia de parches pequeños llevó a omitir trabajo de integración
Métricas detalladas de calidad
- Aprobación en code review: GPT-5.5 33/56, GPT-5.4 16/56, Opus 11/56
- Promedio de code review (exactitud + seguridad ante bugs): GPT-5.5 3.08, GPT-5.4 2.59, Opus 2.33
- Solo en correctness: GPT-5.5 3.16 vs GPT-5.4 2.60 vs Opus 2.11
- Seguridad frente a bugs introducidos: GPT-5.5 3.04 vs GPT-5.4 2.56 vs Opus 2.55
- Promedio del calificador personalizado (8 rúbricas): GPT-5.5 2.62, GPT-5.4 2.40, Opus 2.33
- Puntuación de craftsmanship (clarity/coherence/robustness): GPT-5.5 fue el mejor en las tres subcategorías
- Puntuación de discipline (scope discipline/diff minimality): GPT-5.5 2.36 con una ventaja ligera sobre Opus 2.20
- Aunque Opus va adelante en footprint bruto, GPT-5.5 gana en disciplina relativa a la tarea
Aprobar pruebas no es el criterio final
- En Zod, Opus y GPT-5.5 empataron con 12 pruebas aprobadas, pero GPT-5.5 logró 10 clean pass contra 5 de Opus
- En graphql-go-tools el mismo patrón se amplifica: GPT-5.5 con 26 pruebas/18 clean pass, Opus con 21 pruebas/5 clean pass
- Caso GraphQL PR #1001: los tres modelos aprobaron pruebas y recibieron equivalencia, pero solo GPT-5.5 pasó el code review
- Los otros dos recibieron advertencias por la forma del API, exposición de objetos HTTP crudos y solidez en los límites de hooks
Diferencias concretas detectadas en code review
- Trabajo sobre codecs asíncronos y valores por defecto en Zod: los tres modelos fallaron las pruebas
- Opus modificó 8 archivos, pero omitió semántica clave (permitir
undefineden valores por defecto y mantener síncrona la definición del codec) - GPT-5.4 parchó 11 archivos y obtuvo equivalencia, pero restringió en exceso APIs adyacentes (
prefault) - GPT-5.5 también falló las pruebas, pero cubrió de forma más limpia el comportamiento de schema/build, logrando la mejor calificación en exactitud y riesgo de bugs
- Opus modificó 8 archivos, pero omitió semántica clave (permitir
- Validación de compatibilidad con Apollo en GraphQL (PR #1169): los tres modelos aprobaron pruebas, pero solo GPT-5.5 pasó tanto equivalencia como review
- Opus modificó 11 archivos y omitió validación de hojas enum/wrapping scalar
- GPT-5.4 modificó 12 archivos y expandió el alcance de más con metadatos de validación incondicionales
- GPT-5.5 modificó 10 archivos (6 fuera de tests), fue el más pequeño y aun así implementó con precisión el comportamiento objetivo
Características y límites de Opus 4.7
- Genera parches conservadores, precisos y de bajo footprint
- Rinde bien cuando la tarea es local y la superficie de cambio es reducida
- Patrón repetido de falla: implementa el comportamiento principal pero no completa el trabajo complementario (companion work)
- Caso del árbol paralelo Node/Deno en Zod: Opus modificó solo 4 archivos y aprobó pruebas, pero GPT-5.5 cambió 11 archivos incluyendo la superficie de despliegue paralela, logrando equivalencia con el parche humano
- En graphql-go-tools fue más grave: en PR #1155 (muchos cambios en la superficie del motor, incluyendo campos escalares repetidos del datasource gRPC), Opus ni siquiera logró generar el parche, mientras que GPT-5.5 sí pasó pruebas, equivalencia y review
- Distinción clave: el parche pequeño de Opus representa disciplina en tareas locales, pero implementación incompleta en tareas de integración
Qué cambió de GPT-5.4 a GPT-5.5
- GPT-5.4 suele encontrar la dirección correcta, pero falla en la ejecución
- En Zod obtuvo 18 equivalencias (igual que GPT-5.5), pero solo 9 pruebas aprobadas
- GPT-5.5 conserva mejor el comportamiento de integración amplio y produce menos parches rotos
- Comparaciones concretas:
- Generador schema→TypeScript: Opus y GPT-5.5 implementaron un visitor recursivo, mientras que GPT-5.4 clasificó mal la tarea y generó un archivo guía del repositorio
- Arreglo de parser recursivo: ambos modelos GPT usaron un enfoque de seguimiento de conteo de visitas, pero GPT-5.5 fue más conciso al eliminar estado innecesario
- Validación CIDR: GPT-5.5 actualizó también el mirror de Deno, mientras que GPT-5.4 no lo reflejó, causando un problema de higiene del repositorio
- En graphql-go-tools PR #1232 (deduplicación de single fetch idénticos + reescritura de referencias de dependencias), solo GPT-5.5 pasó pruebas, equivalencia y review
- Resumen del patrón: GPT-5.5 convierte mejor los arreglos locales inteligentes en cambios de repositorio realmente desplegables, haciendo más del trabajo de integración tedioso
Trade-off entre tamaño de parche y costo
- Tamaño promedio de parche en graphql-go-tools: GPT-5.5 cerca de 33KB, GPT-5.4 27KB, Opus 19KB
- Puntuación de footprint: Opus 0.19, GPT-5.4 0.32, GPT-5.5 0.34
- Los parches grandes aumentan la dificultad de revisión, la probabilidad de conflictos y el riesgo de tocar rutas sensibles
- En flujos centrados en auditabilidad, Opus todavía tiene una ventaja práctica
- Pero si la diff minimality se evalúa relativa a la tarea, GPT-5.5 queda ligeramente arriba
- La idea central: un parche de 5KB que deja fuera superficie necesaria no es más mínimo que uno de 20KB que sí completa la tarea
- Comparación de costos:
- En Zod, Opus y GPT-5.5 fueron similares (Opus $45.53 vs GPT-5.5 $46.69)
- En graphql-go-tools, Opus usó 186.1M tokens de entrada / 934K de salida / 8.56h de tiempo de agente, mientras que GPT-5.5 usó 151.4M / 431K / 4.16h, por lo que fue mucho más eficiente
Resumen del comportamiento por modelo
- Opus 4.7 — under-reach: conservador, preciso y de bajo footprint; fuerte en tareas locales pero débil en superficies complementarias que las pruebas no cubren por completo; su modo de falla es “pasó pruebas, pero no hizo el mismo cambio”
- GPT-5.4 — forma correcta, ejecución incorrecta: la dirección suele ser buena, pero es inconsistente; aparecen con frecuencia mirrors desactualizados, refactors innecesarios y parches que gustan más al juez que a las pruebas
- GPT-5.5 — más amplio, mayor footprint: más completo en superficies de integración, mayor tasa de actualización de código circundante, de aprobación en review y de conversión de intención en código real; el riesgo es que, si falla, falla en más archivos
Diferencias en el comportamiento del agente
- En graphql-go-tools, Opus hizo en promedio 3.17 llamadas explícitas de planificación por tarea, mientras que GPT-5.5 hizo 0
- Opus hizo 10.2 llamadas de parche por tarea y GPT-5.5 9.9, casi igual
- GPT-5.5 ejecutó casi el doble de llamadas al shell y también más llamadas de búsqueda; Opus gastó más presupuesto en planificación y reescritura de parches
- En este repositorio, explorar más a fondo el repositorio fue más efectivo que pensar más sobre parches estrechos
Por qué importa este resultado
- La pregunta clave no es “qué modelo es mejor”, sino “en este repositorio, con este arnés y para el tipo de trabajo que realmente desplegamos, en qué modelo podemos confiar para sus parches”
- En Zod, GPT-5.5 vs Opus muestra una relación de trade-off; en graphql-go-tools, GPT-5.5 tiene una ventaja clara
- Los benchmarks públicos suelen aplanar el comportamiento del modelo en un solo número agregado, pero en código real eso se traduce en decisiones de workflow según el codebase y los criterios específicos
Advertencias
- Las 56 tareas siguen siendo una muestra pequeña; una sola tarea puede mover varios puntos los porcentajes a nivel repositorio
- Todos los modelos se ejecutaron una sola vez por tarea, así que algunos resultados cerrados podrían invertirse al reintentar
- El modelo juez de equivalencia y rúbricas fue GPT-5.4, así que puede haber sesgo de familia
- Aun así, GPT-5.5 supera de forma decisiva a GPT-5.4, la ventaja de Opus en footprint se mantiene y muchas fallas de equivalencia de Opus son omisiones concretas de archivos, así que eso no explica por sí solo todo el resultado
- Los resultados son condicionales al arnés: Claude Code y Codex CLI difieren en prompt del sistema, loop de planificación y superficie de herramientas
- Si Opus se ejecutara en la API de Codex, o GPT-5.5 en Claude Code, los resultados podrían cambiar
- Estas cifras reflejan el comportamiento del modelo dentro del arnés que usan ingenieros reales
Conclusiones clave
- GPT-5.5 es el mejor modelo por defecto para despliegue en estos dos repositorios
- Opus 4.7 sigue siendo un modelo de bajo footprint, preferible cuando lo más importante es un diff estrecho
- GPT-5.4 tiene el menor costo por tarea, pero eso no alcanza para compensar la brecha en clean pass
- Mirar solo las pruebas oculta los resultados más importantes
- El ranking del mismo modelo cambia según el repositorio, y esa es precisamente la razón central para hacer benchmarks sobre tu propio repositorio
1 comentarios
A veces hasta parece que se ponen de acuerdo.