1 puntos por GN⁺ 2 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Se publicaron los resultados de un benchmark que compara la calidad de los parches de GPT-5.5, GPT-5.4 y Opus 4.7 en 56 tareas reales de programación extraídas de dos repositorios open source (Zod, graphql-go-tools)
  • GPT-5.5 obtuvo la mejor calificación en todas las métricas: tasa de pruebas aprobadas, equivalencia con parches humanos y tasa de aprobación en code review (clean pass)
  • Opus 4.7 genera los parches más pequeños y tiene bajo riesgo de footprint, pero muestra un patrón de fallas con implementaciones incompletas por omitir trabajo complementario
  • Aprobar pruebas por sí solo no basta para juzgar la calidad de un parche; hace falta una evaluación multicapa que incluya si el revisor lo aceptaría
  • Como el ranking del mismo modelo cambia según el repositorio, ejecutar benchmarks sobre tu propio codebase es clave para elegir modelo

Resumen del benchmark y entorno de ejecución

  • Se compararon los tres modelos en 56 tareas reales de programación: 27 de Zod y 29 de graphql-go-tools
  • Cada modelo se ejecutó con la configuración por defecto en su arnés oficial: Opus 4.7 con Claude Code, y GPT-5.4 y GPT-5.5 con OpenAI Codex CLI
  • El nivel de reasoning se unificó en high para todos los modelos
  • Se usó el framework de evaluación Stet para calificar en múltiples capas, no solo si pasaban las pruebas, sino también equivalencia de comportamiento, aceptación en code review, riesgo de footprint y rúbricas de craftsmanship y discipline
  • Se hizo una sola ejecución por tarea con una sola semilla, y se usó GPT-5.4 como modelo juez para equivalencia y rúbricas

Resumen de resultados generales

  • GPT-5.5 quedó primero en todas las métricas con 38/56 pruebas aprobadas, 40/56 en equivalencia con parches humanos y 28/56 clean pass
  • Opus 4.7 obtuvo 33/56 en pruebas, 19/56 en equivalencia y 10/56 en clean pass, con la puntuación de calidad más baja
    • Aun así, tuvo el riesgo de footprint promedio más bajo, 0.20, lo que le da ventaja en tamaño de parche
  • GPT-5.4 registró 31/56 pruebas aprobadas, 35/56 en equivalencia y 11/56 clean pass
    • Fue el más barato con $2.39 por tarea, pero eso no compensa la diferencia en clean pass
  • GPT-5.5 también fue el más eficiente, con un tiempo promedio por tarea de 6 minutos 56 segundos, 201.8M tokens de entrada y 0.72M tokens de salida

Análisis por repositorio

  • Zod (27 tareas): GPT-5.5 y Opus empataron con 12 pruebas aprobadas, pero GPT-5.5 superó a Opus en calidad de revisión con 10 clean pass vs 5
    • Opus fue mejor en tamaño de diff, así que en Zod hay un trade-off real
  • graphql-go-tools (29 tareas): GPT-5.5 dominó con 26 pruebas aprobadas y 18 clean pass
    • Opus aprobó 21 pruebas, pero solo logró 5 clean pass, porque su estrategia de parches pequeños llevó a omitir trabajo de integración

Métricas detalladas de calidad

  • Aprobación en code review: GPT-5.5 33/56, GPT-5.4 16/56, Opus 11/56
  • Promedio de code review (exactitud + seguridad ante bugs): GPT-5.5 3.08, GPT-5.4 2.59, Opus 2.33
    • Solo en correctness: GPT-5.5 3.16 vs GPT-5.4 2.60 vs Opus 2.11
    • Seguridad frente a bugs introducidos: GPT-5.5 3.04 vs GPT-5.4 2.56 vs Opus 2.55
  • Promedio del calificador personalizado (8 rúbricas): GPT-5.5 2.62, GPT-5.4 2.40, Opus 2.33
  • Puntuación de craftsmanship (clarity/coherence/robustness): GPT-5.5 fue el mejor en las tres subcategorías
  • Puntuación de discipline (scope discipline/diff minimality): GPT-5.5 2.36 con una ventaja ligera sobre Opus 2.20
    • Aunque Opus va adelante en footprint bruto, GPT-5.5 gana en disciplina relativa a la tarea

Aprobar pruebas no es el criterio final

  • En Zod, Opus y GPT-5.5 empataron con 12 pruebas aprobadas, pero GPT-5.5 logró 10 clean pass contra 5 de Opus
  • En graphql-go-tools el mismo patrón se amplifica: GPT-5.5 con 26 pruebas/18 clean pass, Opus con 21 pruebas/5 clean pass
  • Caso GraphQL PR #1001: los tres modelos aprobaron pruebas y recibieron equivalencia, pero solo GPT-5.5 pasó el code review
    • Los otros dos recibieron advertencias por la forma del API, exposición de objetos HTTP crudos y solidez en los límites de hooks

Diferencias concretas detectadas en code review

  • Trabajo sobre codecs asíncronos y valores por defecto en Zod: los tres modelos fallaron las pruebas
    • Opus modificó 8 archivos, pero omitió semántica clave (permitir undefined en valores por defecto y mantener síncrona la definición del codec)
    • GPT-5.4 parchó 11 archivos y obtuvo equivalencia, pero restringió en exceso APIs adyacentes (prefault)
    • GPT-5.5 también falló las pruebas, pero cubrió de forma más limpia el comportamiento de schema/build, logrando la mejor calificación en exactitud y riesgo de bugs
  • Validación de compatibilidad con Apollo en GraphQL (PR #1169): los tres modelos aprobaron pruebas, pero solo GPT-5.5 pasó tanto equivalencia como review
    • Opus modificó 11 archivos y omitió validación de hojas enum/wrapping scalar
    • GPT-5.4 modificó 12 archivos y expandió el alcance de más con metadatos de validación incondicionales
    • GPT-5.5 modificó 10 archivos (6 fuera de tests), fue el más pequeño y aun así implementó con precisión el comportamiento objetivo

Características y límites de Opus 4.7

  • Genera parches conservadores, precisos y de bajo footprint
  • Rinde bien cuando la tarea es local y la superficie de cambio es reducida
  • Patrón repetido de falla: implementa el comportamiento principal pero no completa el trabajo complementario (companion work)
    • Caso del árbol paralelo Node/Deno en Zod: Opus modificó solo 4 archivos y aprobó pruebas, pero GPT-5.5 cambió 11 archivos incluyendo la superficie de despliegue paralela, logrando equivalencia con el parche humano
  • En graphql-go-tools fue más grave: en PR #1155 (muchos cambios en la superficie del motor, incluyendo campos escalares repetidos del datasource gRPC), Opus ni siquiera logró generar el parche, mientras que GPT-5.5 sí pasó pruebas, equivalencia y review
  • Distinción clave: el parche pequeño de Opus representa disciplina en tareas locales, pero implementación incompleta en tareas de integración

Qué cambió de GPT-5.4 a GPT-5.5

  • GPT-5.4 suele encontrar la dirección correcta, pero falla en la ejecución
    • En Zod obtuvo 18 equivalencias (igual que GPT-5.5), pero solo 9 pruebas aprobadas
  • GPT-5.5 conserva mejor el comportamiento de integración amplio y produce menos parches rotos
  • Comparaciones concretas:
    • Generador schema→TypeScript: Opus y GPT-5.5 implementaron un visitor recursivo, mientras que GPT-5.4 clasificó mal la tarea y generó un archivo guía del repositorio
    • Arreglo de parser recursivo: ambos modelos GPT usaron un enfoque de seguimiento de conteo de visitas, pero GPT-5.5 fue más conciso al eliminar estado innecesario
    • Validación CIDR: GPT-5.5 actualizó también el mirror de Deno, mientras que GPT-5.4 no lo reflejó, causando un problema de higiene del repositorio
  • En graphql-go-tools PR #1232 (deduplicación de single fetch idénticos + reescritura de referencias de dependencias), solo GPT-5.5 pasó pruebas, equivalencia y review
  • Resumen del patrón: GPT-5.5 convierte mejor los arreglos locales inteligentes en cambios de repositorio realmente desplegables, haciendo más del trabajo de integración tedioso

Trade-off entre tamaño de parche y costo

  • Tamaño promedio de parche en graphql-go-tools: GPT-5.5 cerca de 33KB, GPT-5.4 27KB, Opus 19KB
  • Puntuación de footprint: Opus 0.19, GPT-5.4 0.32, GPT-5.5 0.34
  • Los parches grandes aumentan la dificultad de revisión, la probabilidad de conflictos y el riesgo de tocar rutas sensibles
    • En flujos centrados en auditabilidad, Opus todavía tiene una ventaja práctica
  • Pero si la diff minimality se evalúa relativa a la tarea, GPT-5.5 queda ligeramente arriba
    • La idea central: un parche de 5KB que deja fuera superficie necesaria no es más mínimo que uno de 20KB que sí completa la tarea
  • Comparación de costos:
    • En Zod, Opus y GPT-5.5 fueron similares (Opus $45.53 vs GPT-5.5 $46.69)
    • En graphql-go-tools, Opus usó 186.1M tokens de entrada / 934K de salida / 8.56h de tiempo de agente, mientras que GPT-5.5 usó 151.4M / 431K / 4.16h, por lo que fue mucho más eficiente

Resumen del comportamiento por modelo

  • Opus 4.7 — under-reach: conservador, preciso y de bajo footprint; fuerte en tareas locales pero débil en superficies complementarias que las pruebas no cubren por completo; su modo de falla es “pasó pruebas, pero no hizo el mismo cambio”
  • GPT-5.4 — forma correcta, ejecución incorrecta: la dirección suele ser buena, pero es inconsistente; aparecen con frecuencia mirrors desactualizados, refactors innecesarios y parches que gustan más al juez que a las pruebas
  • GPT-5.5 — más amplio, mayor footprint: más completo en superficies de integración, mayor tasa de actualización de código circundante, de aprobación en review y de conversión de intención en código real; el riesgo es que, si falla, falla en más archivos

Diferencias en el comportamiento del agente

  • En graphql-go-tools, Opus hizo en promedio 3.17 llamadas explícitas de planificación por tarea, mientras que GPT-5.5 hizo 0
  • Opus hizo 10.2 llamadas de parche por tarea y GPT-5.5 9.9, casi igual
  • GPT-5.5 ejecutó casi el doble de llamadas al shell y también más llamadas de búsqueda; Opus gastó más presupuesto en planificación y reescritura de parches
  • En este repositorio, explorar más a fondo el repositorio fue más efectivo que pensar más sobre parches estrechos

Por qué importa este resultado

  • La pregunta clave no es “qué modelo es mejor”, sino “en este repositorio, con este arnés y para el tipo de trabajo que realmente desplegamos, en qué modelo podemos confiar para sus parches
  • En Zod, GPT-5.5 vs Opus muestra una relación de trade-off; en graphql-go-tools, GPT-5.5 tiene una ventaja clara
  • Los benchmarks públicos suelen aplanar el comportamiento del modelo en un solo número agregado, pero en código real eso se traduce en decisiones de workflow según el codebase y los criterios específicos

Advertencias

  • Las 56 tareas siguen siendo una muestra pequeña; una sola tarea puede mover varios puntos los porcentajes a nivel repositorio
  • Todos los modelos se ejecutaron una sola vez por tarea, así que algunos resultados cerrados podrían invertirse al reintentar
  • El modelo juez de equivalencia y rúbricas fue GPT-5.4, así que puede haber sesgo de familia
    • Aun así, GPT-5.5 supera de forma decisiva a GPT-5.4, la ventaja de Opus en footprint se mantiene y muchas fallas de equivalencia de Opus son omisiones concretas de archivos, así que eso no explica por sí solo todo el resultado
  • Los resultados son condicionales al arnés: Claude Code y Codex CLI difieren en prompt del sistema, loop de planificación y superficie de herramientas
    • Si Opus se ejecutara en la API de Codex, o GPT-5.5 en Claude Code, los resultados podrían cambiar
    • Estas cifras reflejan el comportamiento del modelo dentro del arnés que usan ingenieros reales

Conclusiones clave

  • GPT-5.5 es el mejor modelo por defecto para despliegue en estos dos repositorios
  • Opus 4.7 sigue siendo un modelo de bajo footprint, preferible cuando lo más importante es un diff estrecho
  • GPT-5.4 tiene el menor costo por tarea, pero eso no alcanza para compensar la brecha en clean pass
  • Mirar solo las pruebas oculta los resultados más importantes
  • El ranking del mismo modelo cambia según el repositorio, y esa es precisamente la razón central para hacer benchmarks sobre tu propio repositorio

1 comentarios

 
shakespeares 1 시간 전

A veces hasta parece que se ponen de acuerdo.