Cursor Composer 2.5 se convierte en el modelo más elegido dentro de Cursor — bono de uso 10x
(x.com/mntruell)- El CEO de Cursor, Michael Truell, anunció en X: “Composer 2.5 se ha convertido en el modelo más elegido en Cursor. Durante un día ofreceremos 10 veces más uso a todos los usuarios”
- Es una señal de que la adopción subió rápidamente justo después del lanzamiento, con un giro en el que su modelo propio pasa a ser la opción elegida por defecto frente a los modelos de Anthropic/OpenAI
Resumen clave de Composer 2.5
• Modelo propio de coding agentic de tercera generación de Cursor, lanzado oficialmente el 18 de mayo
• Usa como base el open source Kimi K2.5 de Moonshot AI, igual que Composer 2, y esta vez lo dejan explícitamente claro desde el primer párrafo del anuncio (una medida que parece responder a las críticas de marzo por no haber revelado claramente la base Kimi)
• El 85% del cómputo total se destinó al pipeline propio de aprendizaje por refuerzo de Cursor y al post-training, usando 25 veces más synthetic coding tasks que Composer 2
• Para mejorar la confiabilidad en tareas long-horizon, introdujeron “targeted RL basado en feedback de texto”: en vez de dar una sola reward al final de un rollout largo, inyectan pistas directamente en el punto específico donde ocurrió una tool call incorrecta para afinar la asignación de crédito
Benchmarks (Composer 2.5 vs Opus 4.7 vs GPT-5.5 vs Composer 2)
• Terminal-Bench 2.0: 69.3% vs 69.4% vs 82.7% vs 61.7% — prácticamente empatado con Opus 4.7, pero queda unos 13 puntos por detrás de GPT-5.5
• SWE-Bench Multilingual: 79.8% vs 80.5% vs 77.8% vs 73.7% — a 0.7 puntos de Opus 4.7 y por encima de GPT-5.5
• CursorBench v3.1 (default setting): Composer 2.5 63.2%, Opus 4.7 xhigh default 61.6%, GPT-5.5 medium default 59.2% — en la configuración por defecto que usan desarrolladores reales, supera a ambos frontier models
Precio — su arma más fuerte
• Standard tier: input $0.50/M, output $2.50/M. Fast tier (predeterminado interactivo): input $3.00/M, output $15.00/M
• En SWE-Bench Multilingual logra un rendimiento de nivel Opus 4.7 con aproximadamente 1/10 del precio de Anthropic
• Según CursorBench, alcanza 63% de precisión con un costo promedio por tarea de menos de $1; Opus/GPT con rendimiento similar cuestan varios dólares más por tarea
El panorama más amplio presentado junto con esto
• Además de Composer 2.5, Cursor anunció que está entrenando desde cero un modelo 10 veces más grande usando cerca de 1 millón de GPUs de nivel H100 de Colossus 2 junto con la infraestructura de xAI (SpaceXAI) (sin fecha de lanzamiento definida)
• Según el CEO Michael Truell, actualmente el 35% de los PR que se hacen merge dentro de Cursor son generados por autonomous agents
• En un contexto donde Claude Code venía presionando a Cursor tras superar los 2.5 mil millones de dólares en ARR y los 300 mil clientes empresariales, esto luce como un contraataque con modelo propio
Limitaciones de uso / comentarios
• Composer 2.5 solo puede usarse en Cursor IDE, Cursor CLI y Cursor web — no hay API externa, mirror en HuggingFace ni gateway de terceros
• El hecho de que esté basado en Kimi K2.5 sigue siendo un factor a considerar para industrias reguladas o trabajo relacionado con el ámbito federal
• Es un lanzamiento que muestra que Cursor, que comenzó como un “IDE wrapper”, está pasando de lleno a convertirse en un model lab. Como caso de subir más de +6 puntos solo con post-training sobre la misma base, es un buen datapoint sobre hasta dónde puede vencer el vertical RL a la escala bruta
• Fuente: X (@mntruell), Cursor: Introducing Composer 2.5, OfficeChai
1 comentarios
Acaba de salir y la estoy probando; Composer 2.5 está bastante bien.