- Composer, presentado por Cursor, es un modelo de agente inteligente de alta velocidad para ingeniería de software que logra una velocidad de generación de código 4 veces mayor que modelos similares
- Se entrena para resolver problemas reales en bases de código a gran escala y utiliza herramientas de búsqueda y edición para abordar tareas de distinta dificultad
- Combina una arquitectura Mixture-of-Experts (MoE) con aprendizaje por refuerzo (RL) para admitir comprensión y generación en contexto largo en edición de código, planificación y respuestas
- Mediante la evaluación Cursor Bench, mide no solo la precisión del modelo sino también la consistencia con la base de código y el cumplimiento de prácticas de ingeniería
- Aprovecha una infraestructura asíncrona de RL basada en PyTorch y Ray y entrenamiento de baja precisión MXFP8 para entrenar eficientemente en miles de GPU y mejorar la velocidad de inferencia
Resumen de Composer
- Composer es un nuevo modelo de agente desarrollado con el objetivo de ofrecer inteligencia y velocidad para ingeniería de software
- En benchmarks registró una velocidad de generación de código 4 veces mayor que modelos similares
- Está optimizado dentro de Cursor como agente para resolver problemas en bases de código a gran escala
- El modelo se entrena para resolver problemas de distinta dificultad en entornos reales usando herramientas de búsqueda y edición
- Con ello ofrece una experiencia de desarrollo interactiva y de alta velocidad
Contexto de desarrollo
- Composer surge de la experiencia de Cursor desarrollando su modelo personalizado de autocompletado de código (Cursor Tab)
- Confirmaron que los desarrolladores prefieren modelos inteligentes pero con respuesta rápida
- Basado en el modelo experimental inicial Cheetah, Composer fue diseñado como una versión más rápida y más inteligente
- El objetivo era construir un modelo que ofreciera respuesta inmediata sin interrumpir el flujo de desarrollo
Arquitectura del modelo y método de entrenamiento
- Composer es un modelo de lenguaje Mixture-of-Experts (MoE) que admite comprensión y generación en contexto largo
- Se especializa en distintos entornos de desarrollo mediante aprendizaje por refuerzo (RL)
- En cada etapa de entrenamiento recibe una descripción del problema y genera la mejor modificación de código, plan o respuesta
- El modelo utiliza herramientas como lectura y edición de archivos, ejecución de comandos en terminal y búsqueda semántica global en la base de código
- Durante el proceso de RL, el modelo aprende por sí mismo comportamientos útiles como realizar búsquedas complejas, corregir errores de linter y escribir y ejecutar pruebas unitarias
Evaluación y benchmarks
- Cursor Bench es un conjunto interno de evaluación que incluye solicitudes reales de ingeniería y sus mejores respuestas
- Mide la precisión del modelo, el cumplimiento de las abstracciones de la base de código y la alineación con prácticas de ingeniería de software
- Composer se clasifica como modelo “Fast Frontier” y se compara con modelos orientados a inferencia eficiente como Haiku 4.5 y Gemini Flash 2.5
- Aunque es más lento que modelos Frontier de primer nivel como GPT-5 y Sonnet 4.5, ofrece alta eficiencia en relación con su velocidad
Infraestructura y diseño del sistema
- Para entrenar modelos MoE a gran escala, se construyó una infraestructura asíncrona de RL basada en PyTorch y Ray
- Combina kernels MoE MXFP8, paralelismo entre expertos y paralelismo de datos con particionado híbrido
- Escala el entrenamiento en miles de GPU de NVIDIA minimizando los costos de comunicación
- El entrenamiento de baja precisión MXFP8 mejora la velocidad de inferencia y elimina la necesidad de cuantización posterior al procesamiento
- Durante RL, el modelo puede invocar todas las herramientas de Cursor Agent
- Incluye edición de código, búsqueda semántica,
grep de cadenas y ejecución de comandos de terminal
- Para ello, ejecuta en paralelo cientos de miles de entornos sandbox en la nube
- La infraestructura existente de Background Agents se amplió para manejar cargas de entrenamiento tipo burst
Uso interno y despliegue
- El equipo de Cursor utiliza Composer activamente en su propio trabajo de desarrollo
- Muchos ingenieros usan Composer en el desarrollo de software cotidiano
- Con este anuncio, esperan que otros desarrolladores también puedan aprovecharlo
Apéndice: clasificación interna de benchmarks
- Fast Frontier: modelos de inferencia eficiente (Haiku 4.5, Gemini Flash 2.5, etc.)
- Best Open: modelos de pesos abiertos (Qwen Coder, GLM 4.6, etc.)
- Frontier 7/2025: mejores modelos a julio de 2025
- Best Frontier: modelos con mayor rendimiento que Composer, como GPT-5 y Sonnet 4.5
- El cálculo de Tokens per Second está estandarizado con base en el tokenizer más reciente de Anthropic
1 comentarios
Comentarios en Hacker News
Me parece que falta demasiada transparencia
Solo publican el rendimiento del modelo con benchmarks propios, y ni siquiera esos datos son públicos, así que es difícil confiar
Hablan del entrenamiento con RL, pero no hay ninguna información clave sobre el pre-training ni sobre si hubo fine-tuning
Hasta que publiquen más detalles o haya benchmarks independientes desde afuera, soy escéptico con todas sus afirmaciones
Si los publicaran, esos datos podrían terminar en el set de entrenamiento de otros LLM y se perdería la validez científica
Pero si los mantienen privados, también existe la posibilidad de que hayan elegido solo datos que los favorecen
Al final, es un dilema difícil de resolver
Cursor recopila en tiempo real miles de datos de accept/reject, así que ese es el mejor ciclo de retroalimentación posible
La reacción de usuarios reales es mucho más útil que un benchmark, y eso permite mejorar el modelo rápidamente
Últimamente también agregaron la integración de multi-agent + git tree, así que la estructura aprovecha el comportamiento del usuario como señal de aprendizaje
Creo que este tipo de competencia eleva la calidad de todo el mercado y genera un círculo virtuoso que también baja los costos de uso
Sigo sintiendo que el modelo Tab de Cursor es el mejor
Todo eso está bien explicado en la entrada oficial del blog
Sería realmente interesante si este enfoque pudiera aplicarse también a un modelo de coding agentic
De hecho, la motivación de este proyecto nació justamente de la idea de crear un agente como Tab
Yo casi siempre tengo Claude Code corriendo, y Tab solo interviene cuando el modelo se queda completamente atascado
Me impresiona que ese tipo de fallas esté ocurriendo cada vez menos
Ojalá lo cambiaran a algo como
shift+tabCada vez que escribo código directamente, se siente incómodo, como si estuviera compitiendo con la IA por la indentación
Soy investigador de ML en Cursor y participé en este proyecto
Agradezco cualquier comentario sobre el modelo o la publicación del blog
Pero si Composer es un modelo abierto al que le hicieron fine-tuning con RL, me pregunto por qué mantienen los pesos cerrados
Una pequeña ventaja de rendimiento desaparece rápido, así que una estrategia abierta podría ser mejor para ganarse la confianza de los desarrolladores
Personalmente, me interesan poco los modelos cerrados
Antes había probado Cursor y lo dejé, pero esta vez Composer1 fue mucho más rápido y preciso que GPT5 Codex
Como tanto la velocidad como la calidad fueron buenas, pienso volver a usarlo
Me habría parecido más justo ver una versión con los nombres individuales en vez de agrupar los modelos
Para la etapa de planificación uso Claude, pero en la etapa de ejecución Composer es mucho más eficiente
Más o menos Sonnet 4.5 es la línea mínima de calidad que estoy dispuesto a tolerar
Más que la velocidad, lo importante es no tener que pelear para obtener la salida que quiero
Quizá entendí mal, pero me pregunto si todos los modelos comparados en esta publicación son modelos internos de Cursor
Uno quiere que el modelo se encargue de tareas largas de forma autónoma,
y el otro quiere interactuar y colaborar con el modelo
En el segundo caso la velocidad importa mucho más, y en el primero importa más la inteligencia
Para mí, la falta de comprensión de contexto es un problema mayor, así que depende del caso
Cuando uso modelos que no son Claude, termino gastando más tokens y siendo menos eficiente
Claude 4.5 Sonnet resuelve la misma tarea a la mitad del costo
Yo prefiero retroalimentación rápida antes que precisión absoluta
Me da gusto ver un modelo nuevo, pero cuesta confiar cuando en la gráfica faltan los números y los nombres de los modelos
Dicen que es difícil publicar los detalles del entrenamiento, pero que obtuvieron el resultado de que RL escala bien
Mucha gente es crítica con Cursor, pero después de probar Copilot, Claude Code, Codex, Gemini CLI, Cline y otros, para mí Cursor es el producto más pulido
Destaca especialmente en velocidad y estabilidad, y se siente como un producto de verdad
Era común que las solicitudes se quedaran congeladas por más de 30 segundos, mientras que Claude Code era mucho más rápido y estable
Hoy volví a probar el modelo nuevo y Composer1 fue rápido, pero seguía habiendo errores de conexión
Para implementar rápido lo que quiero, Cursor es lo mejor
El autocompletado también resulta bastante útil durante refactors
Entre los competidores, Cursor es el único que se toma en serio el tiempo hasta completar la respuesta
En ese aspecto, Cursor va completamente por delante
Probé el sistema nuevo y sentí que el rendimiento había bajado
Ni siquiera una app básica funcionó bien, y también falló al manejar CSS y el contexto de terminal
La velocidad además fue empeorando, y al final volví a Sonnet
Espero que no sea la versión estabilizada
Me gusta muchísimo Cursor
He usado varias herramientas como Copilot y Claude, pero al final siempre regreso a Cursor
Sobre todo, el autocompletado Tab es muy preciso para tareas de refactorización
Era lento y la calidad de las sugerencias era baja
Cursor es mucho más rápido y sus sugerencias sí son útiles
Aunque a veces, por ser tan rápido, sigue mostrando sugerencias innecesarias
Aun así, eso se puede resolver con la función de snooze (pausa temporal)
Hay una imagen del pelícano de Composer 1 andando en bicicleta
Enlace de imagen