Resultados de la evaluación de modelos de CursorBench 3.1

(cursor.com)

1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp

En la tabla de evaluación de modelos de programación de Cursor, Fable 5 Max quedó en 1.º lugar con 72.9%, convirtiéndose en el punto de referencia de la competencia en la parte alta
La familia Fable 5 ocupa por completo los puestos 1 al 4 con Max, Extra High, High y Medium, mostrando una clara brecha frente a otros grupos de modelos
Después del top 5 siguen Opus 4.7 Max con 64.8%, GPT-5.5 Extra High con 64.3%, Fable 5 Low con 64.2%, Opus 4.8 Max con 63.8% y Composer 2.5 con 63.2%
CursorBench 3.1 añade tareas centradas en comprensión de codebases, búsqueda de bugs, planificación y revisión de código, y mejora los criterios de evaluación de algunas tareas de edición
El costo promedio por tarea se calcula con los precios públicos por token y los tokens usados en cada tarea, y las diferencias pequeñas de puntaje pueden no ser estadísticamente significativas

Fable 5 arrasa en los primeros puestos

La tabla de CursorBench 3.1 compara por modelo la posición, el puntaje, el costo promedio por tarea y métricas relacionadas con el uso
Del 1.º al 4.º lugar están todos ocupados por la familia Fable 5
- Fable 5 Max: 72.9%, $18.02, 63,842, 76
- Fable 5 Extra High: 72.0%, $13.74, 48,754, 63
- Fable 5 High: 70.6%, $10.81, 37,173, 54
- Fable 5 Medium: 69.8%, $8.27, 28,507, 47
En el rango del 5.º al 10.º puesto se mezclan modelos Opus, GPT-5.5, Fable y Composer
- Opus 4.7 Max: 64.8%, $11.02, 62,989, 96
- GPT-5.5 Extra High: 64.3%, $4.37, 17,905, 46
- Fable 5 Low: 64.2%, $5.70, 18,882, 36
- Opus 4.8 Max: 63.8%, $7.59, 77,370, 60
- Composer 2.5: 63.2%, $0.55, 15,152, 37
- GPT-5.5 High: 62.6%, $3.59, 13,329, 40

Puntajes por modelo en la zona media y baja

Los puestos 11 al 20 están ocupados principalmente por modelos Opus, Sonnet y GPT-5.5
- Opus 4.8 Extra High: 62.1%, $6.14, 55,622, 54
- Opus 4.7 Extra High: 61.6%, $7.11, 43,942, 72
- Sonnet 5 Max: 61.2%, $6.87, 93,485, 93
- Opus 4.7 High: 59.4%, $5.01, 32,227, 59
- GPT-5.5 Medium: 59.2%, $2.22, 9,065, 35
- Opus 4.8 High: 58.4%, $4.41, 36,788, 45
- Sonnet 5 Extra High: 58.4%, $5.23, 58,228, 86
- Sonnet 5 High: 57.0%, $3.74, 41,735, 66
- Opus 4.8 Medium: 56.6%, $3.83, 31,684, 41
- Sonnet 5 Medium: 54.9%, $2.57, 27,469, 53
Del 21.º al 36.º lugar se incluyen GLM, Kimi, Gemini, Sonnet y Composer, entre otros
- GLM 5.2 Max: 54.6%, $3.11, 51,312, 83
- Opus 4.8 Low: 54.3%, $2.93, 22,726, 36
- Opus 4.7 Medium: 52.7%, $2.93, 19,193, 41
- Kimi K2.7 Code: 52.7%, $1.92, 32,902, 70
- Composer 2: 52.2%, $0.56, 14,163, 40
- GLM 5.2 High: 50.7%, $2.46, 30,621, 76
- Gemini 3.5 Flash: 49.8%, $1.94, 35,105, 79
- Sonnet 4.6 Max: 49.0%, $3.09, 40,280, 55
- GPT-5.5 Low: 48.8%, $1.19, 4,923, 24
- Sonnet 4.6 High: 48.8%, $3.06, 37,352, 57
- Opus 4.7 Low: 48.3%, $1.87, 13,164, 29
- Sonnet 5 Low: 47.7%, $1.46, 17,028, 37
- Kimi 2.6: 47.6%, $1.27, 24,783, 56
- Sonnet 4.6 Medium: 46.0%, $2.64, 31,360, 50
- Sonnet 4.6 Low: 41.5%, $1.89, 21,211, 50
- Kimi 2.5: 31.9%, $0.87, 9,446, 30

Alcance de evaluación de CursorBench 3.1

CursorBench 3.1 introduce problemas enfocados en comprensión de codebases, búsqueda de bugs, planificación y revisión de código
También se mejoran los criterios de evaluación de algunas tareas de edición
CursorBench 3.0 era un conjunto inicial de tareas enfocado en problemas de edición, refactorización y corrección de bugs

Cálculo de costos y límites de interpretación

El costo promedio por tarea se calcula usando el per-million-token pricing público de cada modelo
Incluye precios de entrada, lectura de caché, escritura de caché y salida
Luego se aplica ese precio a los tokens que cada modelo usó en las tareas de CursorBench 3.1 y se obtiene el promedio total por tarea
Los resultados aún presentan variabilidad, y las diferencias pequeñas de puntaje pueden no ser estadísticamente significativas

1 comentarios

GN⁺ 4 시간 전

Comentarios de Hacker News

Soy algo escéptico
En el benchmark de Cursor, su modelo Composer 2.5 aparece como tan bueno como Opus 4.8 max y GPT-5.5 xhigh, pero a un precio mucho menor
Pero en las pruebas de Artificial Analysis, Composer 2.5 queda bastante atrás: https://artificialanalysis.ai/agents/coding-agents
Si miras el benchmark DeepSWE, GPT-5.5 xhigh tiene 64, Opus 4.8 max 56 y Cursor 2.5 16
No dudo que Cursor pueda funcionar muy bien para algunas personas, pero me cuesta creer la afirmación de que compite con Opus 4.8 o GPT-5.5. Es demasiado conveniente que salga bien parado en su propio benchmark y quede muy rezagado en benchmarks de terceros
- Trabajo en Cursor. Cuando salió Composer 2.5, recuerdo que aparecía como bastante competitivo en el benchmark general de AA, y creo que estaba en tercer lugar en general
  Recientemente AA cambió a usar DeepSWE, y ese benchmark se enfoca mucho más en tareas de alcance muy largo. Composer todavía no es fuerte en ese tipo de tareas, así que estamos trabajando para mejorarlo en el próximo modelo
  En general, Composer sale bien en algunos benchmarks y no tan bien en otros. Aun así, me parece un modelo muy capaz para su rango de precio actual. Si ven comportamientos concretos o puntos débiles, pueden comentarlos aquí o escribir a lrobinson at cursor.com
- No es difícil entender qué está pasando. Hicieron aprendizaje por refuerzo ajustado a los patrones de sus propios datos y a ciertas capacidades específicas, así que naturalmente terminaron creando un benchmark que encaja con su conjunto de entrenamiento
  Irónicamente, dentro del rango estrecho que de verdad les importa a los “clientes propios” de Cursor, ese benchmark podría ser más preciso que Artificial Analysis. Fuera de eso, solo hay que verlo como otro punto de datos
- DeepSWE tiene un pequeño defecto en que solo usa su propio arnés de ejecución, y eso causa problemas con modelos que ese arnés no soporta bien
  Hay bastante evidencia de que el arnés influye mucho en cómo se comportan estos modelos, pero DeepSWE elimina completamente ese factor. Probablemente solo verificaron que funcionara bien con algunos modelos que prefieren
  Como también se reportó en issues de GitHub, su arnés no usa caché, así que también hay problemas con el cálculo de costos. No existe un benchmark perfecto, pero eso explica bastante bien la variación entre benchmarks
- Las sesiones de Cursor son casi exactamente aquello para lo que se entrena con aprendizaje por refuerzo al modelo Composer. Este benchmark y los datos de entrenamiento deberían tener esencialmente la misma distribución
- No sé mucho sobre benchmarks, pero he usado bastante Composer 2.5 y en trabajo real me ha funcionado bastante bien
La elección de ejes así me parece bastante desconcertante. Pensé que la izquierda sería el lado más barato, pero en realidad es el más caro
Entiendo la idea de acomodarlo para que la esquina superior derecha sea la mejor, pero que el eje de costo esté invertido sigue sin sentirse intuitivo
Dejando eso de lado, todos los días paso el día entero haciendo implementaciones muy difíciles, al nivel de lo que un agente apenas puede manejar, y para trabajos que requieren “validación de realidad” tuve que mantener Opus en max durante bastante tiempo. Sentí que esa era prácticamente la única forma de lograr que Opus se comportara aunque sea cercano a GPT-5.5 xhigh
Cuando usas GPT-5.5 por suscripción, la ventana de contexto es pequeña, así que aunque dice 400k, en la práctica son como 258k, por eso sigo usando Opus
La diferencia es que GPT-5.5 xhigh es muy rápido en la mayoría de los casos reales. Toda la implementación también es eficiente, y responde de forma adaptativamente rápida a preguntas que no requieren pensar demasiado
En cambio, Opus 4.8 Max se demora innecesariamente en todo, y hasta implementaciones simples pueden tomar horas, así que lo termino usando principalmente para planeación y revisión
Fable es mucho mejor en pensamiento adaptativo y respuestas rápidas, pero probablemente sigue por debajo de GPT-5.5 xhigh. Creo que ya se ha hablado bastante de sus pros y contras y, por desgracia, en mis tareas difíciles todavía no es un implementador confiable. Eso sigue siendo territorio de GPT, y Fable tiende a dejar huecos grandes y peligrosos dentro de la implementación si no se le supervisa con mucho cuidado
- ¿Hay хотя sea una sola parte demostrable en eso de “paso todos los días el día entero haciendo implementaciones muy difíciles, al nivel de lo que un agente apenas puede manejar”? ¿O simplemente hay que creértelo? Todo suena ridículamente subjetivo
- Si Fable deja huecos peligrosos en la implementación, da la impresión de que se podría integrar con GLM o DeepSeek mezclados para red teaming de código
  Fable, por diseño, es ciego a la seguridad[0], y los modelos abiertos son bastante buenos en eso
  [0] No está claro qué pasará con GPT-5.6, pero por el blog parece que va a incluir filtros de seguridad excesivamente cautelosos de forma parecida
  Lo curioso es que publicaciones recientes sobre Opus presumen que redujeron a propósito parte de sus capacidades de seguridad. “during its [Opus 4.7] training we experimented with efforts to differentially reduce these ["cyber"] capabilities”
- Es muy estilo Gartner. La esquina superior derecha es donde uno quiere estar
- Coincido en que no se entiende por qué invirtieron el eje x. Eso hace que este gráfico sea muy difícil de entender para un observador común
- Me pregunto si de verdad sientes que “la ventana de contexto es pequeña cuando usas GPT-5.5 por suscripción” hace una diferencia en trabajo real
  Yo lo estoy usando con 5.5 high/xhigh para optimizar y hacer benchmarks de un codebase en C, y solo con leer el código inicial ya casi se llena la primera ventana de contexto
  La sesión hace compresión automática unas 5 a 15 veces, pero como el trabajo suele concentrarse principalmente en la ventana más reciente, más o menos se las arregla bien
  En programación, la ventaja de GPT sobre Opus parece ser lo bastante grande como para superar la diferencia en ventana de contexto
Me cuesta creer que Composer 2.5 sea tan bueno. Lo comparé con GLM 5.2 y Opus 4.6, y le faltaba profundidad al pensar los problemas y razonamiento crítico
Es bueno para ejecutar planes hechos por otros modelos, pero incluso entonces a veces hace manipulaciones raras de código que se alejan mucho de cómo realmente funcionan los archivos de alrededor
- Ya no uso Cursor, pero cuando lo usé hace poco la experiencia fue parecida. Planeaba con Opus, implementaba con Composer y cerraba con Opus
  Composer era competente si tenía un buen plan, pero no estaba a un nivel sorprendente. Aun así, lo que de verdad me encantó fue la velocidad
  Lo que a Opus le tomaba 30 minutos, Composer lo terminaba en 5–10 minutos. Claro, el resultado no era perfecto, así que pasaba por una etapa de pulido con Opus o Codex
  Al final es una cuestión de equilibrio, cambia constantemente y depende por completo del problema que estés resolviendo. Yo trato de mantenerme flexible y ajustar el proceso a lo que mejor funcione en ese momento
- Viendo esto, me suena a una frontera irregular. No dudo de la experiencia personal de nadie. El mes pasado probé Composer 2.5 con Grok y con créditos de una cuenta X Premium
  No estoy construyendo cohetes, pero me pareció bastante impresionante. Todos los modelos hacen tonterías de vez en cuando, pero resolvió bastante bien las tareas que le pedí y mostró resultados impresionantes
  En Grok es rápido, y comparado con otros modelos que he usado bastante, me parece mejor que gemini 3.1. Según mi criterio, 3.5 y antigravity eran peores que el gemini cli anterior. Está más o menos al nivel de Opus 4.6. Todavía no he probado los modelos más nuevos de Claude Code
Si entendí bien la gráfica, Fable usa menos tokens que sonet y opus para lograr la misma tarea. Si es así, eso es bueno
Durante un tiempo dio la impresión de que para conseguir mejores resultados los modelos solo escupían tokens sin parar, así que si el modelo en sí mejora sin generar más tokens, se siente como un logro real
Pregunta 1: ¿por qué es importante la cantidad de pasos en esta gráfica? ¿Qué nos dice?
Pregunta 2: ¿por qué invirtieron el eje horizontal para que el 0 no esté en el origen sino a la derecha? ¿Es una nueva forma inteligente de hacerlo? No recuerdo haberlo visto antes
Es interesante que Opus 4.7 haya salido mejor que 4.8. Ojalá también hubieran probado 4.6. Ayer vi aquí a alguien siendo objeto de burlas por insistir en que 4.6 es mejor que los modelos posteriores
Pero los benchmarks siempre son tramposos. En DeepSWE, GPT-5.5 le gana a Opus-4.8 por bastante, pero en FrontierCode pasa lo contrario
El único benchmark confiable es tu propia carga de trabajo real
Cada vez que sale un benchmark nuevo, los modelos chinos quedan muy por debajo de lo que uno esperaría según los benchmarks anteriores, y con el tiempo luego se recuperan
- Magia de la destilación
Ojalá todos estos sitios mostraran una gráfica de frontera de Pareto de costo/rendimiento. Por lo general, esas son las dos cosas importantes. Se podría meter un parámetro de velocidad y hacerlo en 3D, pero
https://paraplouis.github.io/llm-pareto-frontier/ es la mejor gráfica de ese tipo que he visto, aunque no se actualiza tan seguido como me gustaría
- Ese sitio no sirve de mucho. No refleja los tokens de razonamiento ni el caché, ni su eficiencia
  GLM5.2 recibe promoción de todos los wumao que la PLA puede movilizar en internet, pero su proceso de razonamiento es tan verboso que deja expuestas sus limitaciones
  Los modelos de Anthropic tienen el mismo problema, pero parten de un nivel de inteligencia real mucho más alto
  Justamente por eso, las comparaciones confiables ahora deberían mostrarse según el costo total de completar una tarea, no con costos arbitrarios de tokens de entrada/salida
He usado bastante Composer 2.5 y GPT 5.5 tanto en Cursor como en Codex, y la afirmación de que el rendimiento de Composer 2.5 está cerca del de GPT 5.5 es totalmente absurda
Sí es más rápido, pero la calidad no está ni cerca de ese nivel
Además, Composer solo se puede usar si tienes la suscripción mensual de Cursor, así que tampoco tiene sentido comparar costos. Con una suscripción de OpenAI de precio parecido puedes usar mejores modelos en esa misma medida
La parte más interesante es el costo. GPT 5.5 y sonnet 5 cuestan lo mismo que GLM 5.2, pero son modelos más capaces
Qué sorpresa: un modelo de Cursor destaca en un benchmark de Cursor, material para el noticiero de las 11
Aun así, por mi experiencia usándolos todos directamente, los demás modelos están ubicados en posiciones bastante razonables
Fable cuesta 10 veces más, pero en la mayoría de los casos aplasta a los demás modelos. Aunque a veces no se trata de elegir entre algo barato y algo caro, sino entre algo caro pero posible y algo directamente imposible. Como con los demás modelos, hay que aprender dónde está esa frontera

Resultados de la evaluación de modelos de CursorBench 3.1

Fable 5 arrasa en los primeros puestos

Puntajes por modelo en la zona media y baja

Alcance de evaluación de CursorBench 3.1

Cálculo de costos y límites de interpretación

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News