Cursor lanza Composer 2, su modelo de IA especializado en programación

Cursor presentó Composer 2, un modelo de IA especializado en programación con rendimiento de nivel frontier y precio accesible.

Rendimiento

Registró una mejora importante frente a la versión anterior en todos los benchmarks principales.

El modelo fue evaluado con tres pruebas.

CursorBench — Es un benchmark de tareas reales de programación creado por la propia Cursor. Al pasar de Composer 1 → 1.5 → 2, subió de 38.0 → 44.2 → 61.3. Entre la versión 1 y la 2, el rendimiento mejoró alrededor de un 61%, y en especial en el tramo 1.5 → 2 dio un salto de unos 17 puntos, el mayor avance de esta generación.

Terminal-Bench 2.0 — Es una evaluación de agentes basados en terminal administrada por Laude Institute. Mide la capacidad de completar tareas ejecutando comandos reales en la terminal. Pasó de 40.0 → 47.9 → 61.7, mostrando un patrón de mejora casi idéntico al de CursorBench.

SWE-bench Multilingual — Es la versión multilingüe del conocido benchmark de ingeniería de software que resuelve issues reales de GitHub con código. Subió de 56.9 → 65.9 → 73.7. Ya desde Composer 1 comenzaba en el rango de 56 puntos, por encima de los otros dos benchmarks, lo que sugiere que su capacidad para escribir parches de código ya era relativamente fuerte desde etapas tempranas.

Puntos clave

En los tres benchmarks, el aumento entre 1.5 → 2 fue mucho mayor que entre 1 → 1.5, y ese es el punto central del anuncio. Aquí es donde la combinación de preentrenamiento continuo + aprendizaje por refuerzo mostró su efecto. La puntuación de 73.7 en SWE-bench Multilingual se ubica entre las más altas de los modelos públicos actuales.

Versión estándar: entrada $0.50 / salida $2.50 (por millón de tokens)
Versión rápida (fast): entrada $1.50 / salida $7.50 (por millón de tokens)

La versión rápida se ofrecerá como opción predeterminada, y su fortaleza está en su precio más bajo frente a modelos rápidos de la misma categoría. Para usuarios del plan personal, se incluye una asignación base generosa en un pool de uso separado.

Comentario

Resulta llamativo que Cursor esté pasando de una capa que utilizaba modelos externos como Claude o GPT a una dirección en la que entrena directamente sus propios modelos de forma decidida. En particular, su posicionamiento de rendimiento por precio es agresivo, y se puede interpretar como una estrategia para integrar verticalmente hasta la capa de modelo en el mercado de agentes de programación. Quienes usaban Claude Sonnet o GPT-4o en Cursor podrían considerar cambiar a Composer 2.