- En la tabla de evaluación de modelos de programación de Cursor, Fable 5 Max quedó en 1.º lugar con 72.9%, convirtiéndose en el punto de referencia de la competencia en la parte alta
- La familia Fable 5 ocupa por completo los puestos 1 al 4 con Max, Extra High, High y Medium, mostrando una clara brecha frente a otros grupos de modelos
- Después del top 5 siguen Opus 4.7 Max con 64.8%, GPT-5.5 Extra High con 64.3%, Fable 5 Low con 64.2%, Opus 4.8 Max con 63.8% y Composer 2.5 con 63.2%
- CursorBench 3.1 añade tareas centradas en comprensión de codebases, búsqueda de bugs, planificación y revisión de código, y mejora los criterios de evaluación de algunas tareas de edición
- El costo promedio por tarea se calcula con los precios públicos por token y los tokens usados en cada tarea, y las diferencias pequeñas de puntaje pueden no ser estadísticamente significativas
Fable 5 arrasa en los primeros puestos
- La tabla de CursorBench 3.1 compara por modelo la posición, el puntaje, el costo promedio por tarea y métricas relacionadas con el uso
- Del 1.º al 4.º lugar están todos ocupados por la familia Fable 5
- Fable 5 Max: 72.9%, $18.02, 63,842, 76
- Fable 5 Extra High: 72.0%, $13.74, 48,754, 63
- Fable 5 High: 70.6%, $10.81, 37,173, 54
- Fable 5 Medium: 69.8%, $8.27, 28,507, 47
- En el rango del 5.º al 10.º puesto se mezclan modelos Opus, GPT-5.5, Fable y Composer
- Opus 4.7 Max: 64.8%, $11.02, 62,989, 96
- GPT-5.5 Extra High: 64.3%, $4.37, 17,905, 46
- Fable 5 Low: 64.2%, $5.70, 18,882, 36
- Opus 4.8 Max: 63.8%, $7.59, 77,370, 60
- Composer 2.5: 63.2%, $0.55, 15,152, 37
- GPT-5.5 High: 62.6%, $3.59, 13,329, 40
Puntajes por modelo en la zona media y baja
- Los puestos 11 al 20 están ocupados principalmente por modelos Opus, Sonnet y GPT-5.5
- Opus 4.8 Extra High: 62.1%, $6.14, 55,622, 54
- Opus 4.7 Extra High: 61.6%, $7.11, 43,942, 72
- Sonnet 5 Max: 61.2%, $6.87, 93,485, 93
- Opus 4.7 High: 59.4%, $5.01, 32,227, 59
- GPT-5.5 Medium: 59.2%, $2.22, 9,065, 35
- Opus 4.8 High: 58.4%, $4.41, 36,788, 45
- Sonnet 5 Extra High: 58.4%, $5.23, 58,228, 86
- Sonnet 5 High: 57.0%, $3.74, 41,735, 66
- Opus 4.8 Medium: 56.6%, $3.83, 31,684, 41
- Sonnet 5 Medium: 54.9%, $2.57, 27,469, 53
- Del 21.º al 36.º lugar se incluyen GLM, Kimi, Gemini, Sonnet y Composer, entre otros
- GLM 5.2 Max: 54.6%, $3.11, 51,312, 83
- Opus 4.8 Low: 54.3%, $2.93, 22,726, 36
- Opus 4.7 Medium: 52.7%, $2.93, 19,193, 41
- Kimi K2.7 Code: 52.7%, $1.92, 32,902, 70
- Composer 2: 52.2%, $0.56, 14,163, 40
- GLM 5.2 High: 50.7%, $2.46, 30,621, 76
- Gemini 3.5 Flash: 49.8%, $1.94, 35,105, 79
- Sonnet 4.6 Max: 49.0%, $3.09, 40,280, 55
- GPT-5.5 Low: 48.8%, $1.19, 4,923, 24
- Sonnet 4.6 High: 48.8%, $3.06, 37,352, 57
- Opus 4.7 Low: 48.3%, $1.87, 13,164, 29
- Sonnet 5 Low: 47.7%, $1.46, 17,028, 37
- Kimi 2.6: 47.6%, $1.27, 24,783, 56
- Sonnet 4.6 Medium: 46.0%, $2.64, 31,360, 50
- Sonnet 4.6 Low: 41.5%, $1.89, 21,211, 50
- Kimi 2.5: 31.9%, $0.87, 9,446, 30
Alcance de evaluación de CursorBench 3.1
- CursorBench 3.1 introduce problemas enfocados en comprensión de codebases, búsqueda de bugs, planificación y revisión de código
- También se mejoran los criterios de evaluación de algunas tareas de edición
- CursorBench 3.0 era un conjunto inicial de tareas enfocado en problemas de edición, refactorización y corrección de bugs
Cálculo de costos y límites de interpretación
- El costo promedio por tarea se calcula usando el per-million-token pricing público de cada modelo
- Incluye precios de entrada, lectura de caché, escritura de caché y salida
- Luego se aplica ese precio a los tokens que cada modelo usó en las tareas de CursorBench 3.1 y se obtiene el promedio total por tarea
- Los resultados aún presentan variabilidad, y las diferencias pequeñas de puntaje pueden no ser estadísticamente significativas
1 comentarios
Comentarios de Hacker News
Soy algo escéptico
En el benchmark de Cursor, su modelo Composer 2.5 aparece como tan bueno como Opus 4.8 max y GPT-5.5 xhigh, pero a un precio mucho menor
Pero en las pruebas de Artificial Analysis, Composer 2.5 queda bastante atrás: https://artificialanalysis.ai/agents/coding-agents
Si miras el benchmark DeepSWE, GPT-5.5 xhigh tiene 64, Opus 4.8 max 56 y Cursor 2.5 16
No dudo que Cursor pueda funcionar muy bien para algunas personas, pero me cuesta creer la afirmación de que compite con Opus 4.8 o GPT-5.5. Es demasiado conveniente que salga bien parado en su propio benchmark y quede muy rezagado en benchmarks de terceros
Recientemente AA cambió a usar DeepSWE, y ese benchmark se enfoca mucho más en tareas de alcance muy largo. Composer todavía no es fuerte en ese tipo de tareas, así que estamos trabajando para mejorarlo en el próximo modelo
En general, Composer sale bien en algunos benchmarks y no tan bien en otros. Aun así, me parece un modelo muy capaz para su rango de precio actual. Si ven comportamientos concretos o puntos débiles, pueden comentarlos aquí o escribir a lrobinson at cursor.com
Irónicamente, dentro del rango estrecho que de verdad les importa a los “clientes propios” de Cursor, ese benchmark podría ser más preciso que Artificial Analysis. Fuera de eso, solo hay que verlo como otro punto de datos
Hay bastante evidencia de que el arnés influye mucho en cómo se comportan estos modelos, pero DeepSWE elimina completamente ese factor. Probablemente solo verificaron que funcionara bien con algunos modelos que prefieren
Como también se reportó en issues de GitHub, su arnés no usa caché, así que también hay problemas con el cálculo de costos. No existe un benchmark perfecto, pero eso explica bastante bien la variación entre benchmarks
La elección de ejes así me parece bastante desconcertante. Pensé que la izquierda sería el lado más barato, pero en realidad es el más caro
Entiendo la idea de acomodarlo para que la esquina superior derecha sea la mejor, pero que el eje de costo esté invertido sigue sin sentirse intuitivo
Dejando eso de lado, todos los días paso el día entero haciendo implementaciones muy difíciles, al nivel de lo que un agente apenas puede manejar, y para trabajos que requieren “validación de realidad” tuve que mantener Opus en max durante bastante tiempo. Sentí que esa era prácticamente la única forma de lograr que Opus se comportara aunque sea cercano a GPT-5.5 xhigh
Cuando usas GPT-5.5 por suscripción, la ventana de contexto es pequeña, así que aunque dice 400k, en la práctica son como 258k, por eso sigo usando Opus
La diferencia es que GPT-5.5 xhigh es muy rápido en la mayoría de los casos reales. Toda la implementación también es eficiente, y responde de forma adaptativamente rápida a preguntas que no requieren pensar demasiado
En cambio, Opus 4.8 Max se demora innecesariamente en todo, y hasta implementaciones simples pueden tomar horas, así que lo termino usando principalmente para planeación y revisión
Fable es mucho mejor en pensamiento adaptativo y respuestas rápidas, pero probablemente sigue por debajo de GPT-5.5 xhigh. Creo que ya se ha hablado bastante de sus pros y contras y, por desgracia, en mis tareas difíciles todavía no es un implementador confiable. Eso sigue siendo territorio de GPT, y Fable tiende a dejar huecos grandes y peligrosos dentro de la implementación si no se le supervisa con mucho cuidado
Fable, por diseño, es ciego a la seguridad[0], y los modelos abiertos son bastante buenos en eso
[0] No está claro qué pasará con GPT-5.6, pero por el blog parece que va a incluir filtros de seguridad excesivamente cautelosos de forma parecida
Lo curioso es que publicaciones recientes sobre Opus presumen que redujeron a propósito parte de sus capacidades de seguridad. “during its [Opus 4.7] training we experimented with efforts to differentially reduce these ["cyber"] capabilities”
Yo lo estoy usando con 5.5 high/xhigh para optimizar y hacer benchmarks de un codebase en C, y solo con leer el código inicial ya casi se llena la primera ventana de contexto
La sesión hace compresión automática unas 5 a 15 veces, pero como el trabajo suele concentrarse principalmente en la ventana más reciente, más o menos se las arregla bien
En programación, la ventaja de GPT sobre Opus parece ser lo bastante grande como para superar la diferencia en ventana de contexto
Me cuesta creer que Composer 2.5 sea tan bueno. Lo comparé con GLM 5.2 y Opus 4.6, y le faltaba profundidad al pensar los problemas y razonamiento crítico
Es bueno para ejecutar planes hechos por otros modelos, pero incluso entonces a veces hace manipulaciones raras de código que se alejan mucho de cómo realmente funcionan los archivos de alrededor
Composer era competente si tenía un buen plan, pero no estaba a un nivel sorprendente. Aun así, lo que de verdad me encantó fue la velocidad
Lo que a Opus le tomaba 30 minutos, Composer lo terminaba en 5–10 minutos. Claro, el resultado no era perfecto, así que pasaba por una etapa de pulido con Opus o Codex
Al final es una cuestión de equilibrio, cambia constantemente y depende por completo del problema que estés resolviendo. Yo trato de mantenerme flexible y ajustar el proceso a lo que mejor funcione en ese momento
No estoy construyendo cohetes, pero me pareció bastante impresionante. Todos los modelos hacen tonterías de vez en cuando, pero resolvió bastante bien las tareas que le pedí y mostró resultados impresionantes
En Grok es rápido, y comparado con otros modelos que he usado bastante, me parece mejor que gemini 3.1. Según mi criterio, 3.5 y antigravity eran peores que el gemini cli anterior. Está más o menos al nivel de Opus 4.6. Todavía no he probado los modelos más nuevos de Claude Code
Si entendí bien la gráfica, Fable usa menos tokens que sonet y opus para lograr la misma tarea. Si es así, eso es bueno
Durante un tiempo dio la impresión de que para conseguir mejores resultados los modelos solo escupían tokens sin parar, así que si el modelo en sí mejora sin generar más tokens, se siente como un logro real
Pregunta 1: ¿por qué es importante la cantidad de pasos en esta gráfica? ¿Qué nos dice?
Pregunta 2: ¿por qué invirtieron el eje horizontal para que el 0 no esté en el origen sino a la derecha? ¿Es una nueva forma inteligente de hacerlo? No recuerdo haberlo visto antes
Es interesante que Opus 4.7 haya salido mejor que 4.8. Ojalá también hubieran probado 4.6. Ayer vi aquí a alguien siendo objeto de burlas por insistir en que 4.6 es mejor que los modelos posteriores
Pero los benchmarks siempre son tramposos. En DeepSWE, GPT-5.5 le gana a Opus-4.8 por bastante, pero en FrontierCode pasa lo contrario
El único benchmark confiable es tu propia carga de trabajo real
Cada vez que sale un benchmark nuevo, los modelos chinos quedan muy por debajo de lo que uno esperaría según los benchmarks anteriores, y con el tiempo luego se recuperan
Ojalá todos estos sitios mostraran una gráfica de frontera de Pareto de costo/rendimiento. Por lo general, esas son las dos cosas importantes. Se podría meter un parámetro de velocidad y hacerlo en 3D, pero
https://paraplouis.github.io/llm-pareto-frontier/ es la mejor gráfica de ese tipo que he visto, aunque no se actualiza tan seguido como me gustaría
GLM5.2 recibe promoción de todos los wumao que la PLA puede movilizar en internet, pero su proceso de razonamiento es tan verboso que deja expuestas sus limitaciones
Los modelos de Anthropic tienen el mismo problema, pero parten de un nivel de inteligencia real mucho más alto
Justamente por eso, las comparaciones confiables ahora deberían mostrarse según el costo total de completar una tarea, no con costos arbitrarios de tokens de entrada/salida
He usado bastante Composer 2.5 y GPT 5.5 tanto en Cursor como en Codex, y la afirmación de que el rendimiento de Composer 2.5 está cerca del de GPT 5.5 es totalmente absurda
Sí es más rápido, pero la calidad no está ni cerca de ese nivel
Además, Composer solo se puede usar si tienes la suscripción mensual de Cursor, así que tampoco tiene sentido comparar costos. Con una suscripción de OpenAI de precio parecido puedes usar mejores modelos en esa misma medida
La parte más interesante es el costo. GPT 5.5 y sonnet 5 cuestan lo mismo que GLM 5.2, pero son modelos más capaces
Qué sorpresa: un modelo de Cursor destaca en un benchmark de Cursor, material para el noticiero de las 11
Aun así, por mi experiencia usándolos todos directamente, los demás modelos están ubicados en posiciones bastante razonables
Fable cuesta 10 veces más, pero en la mayoría de los casos aplasta a los demás modelos. Aunque a veces no se trata de elegir entre algo barato y algo caro, sino entre algo caro pero posible y algo directamente imposible. Como con los demás modelos, hay que aprender dónde está esa frontera