Composer: modelo frontier rápido construido con aprendizaje por refuerzo

(cursor.com)

2 puntos por GN⁺ 2025-10-30 | 1 comentarios | Compartir por WhatsApp

Composer, presentado por Cursor, es un modelo de agente inteligente de alta velocidad para ingeniería de software que logra una velocidad de generación de código 4 veces mayor que modelos similares
Se entrena para resolver problemas reales en bases de código a gran escala y utiliza herramientas de búsqueda y edición para abordar tareas de distinta dificultad
Combina una arquitectura Mixture-of-Experts (MoE) con aprendizaje por refuerzo (RL) para admitir comprensión y generación en contexto largo en edición de código, planificación y respuestas
Mediante la evaluación Cursor Bench, mide no solo la precisión del modelo sino también la consistencia con la base de código y el cumplimiento de prácticas de ingeniería
Aprovecha una infraestructura asíncrona de RL basada en PyTorch y Ray y entrenamiento de baja precisión MXFP8 para entrenar eficientemente en miles de GPU y mejorar la velocidad de inferencia

Resumen de Composer

Composer es un nuevo modelo de agente desarrollado con el objetivo de ofrecer inteligencia y velocidad para ingeniería de software
- En benchmarks registró una velocidad de generación de código 4 veces mayor que modelos similares
- Está optimizado dentro de Cursor como agente para resolver problemas en bases de código a gran escala
El modelo se entrena para resolver problemas de distinta dificultad en entornos reales usando herramientas de búsqueda y edición
- Con ello ofrece una experiencia de desarrollo interactiva y de alta velocidad

Contexto de desarrollo

Composer surge de la experiencia de Cursor desarrollando su modelo personalizado de autocompletado de código (Cursor Tab)
- Confirmaron que los desarrolladores prefieren modelos inteligentes pero con respuesta rápida
Basado en el modelo experimental inicial Cheetah, Composer fue diseñado como una versión más rápida y más inteligente
- El objetivo era construir un modelo que ofreciera respuesta inmediata sin interrumpir el flujo de desarrollo

Arquitectura del modelo y método de entrenamiento

Composer es un modelo de lenguaje Mixture-of-Experts (MoE) que admite comprensión y generación en contexto largo
Se especializa en distintos entornos de desarrollo mediante aprendizaje por refuerzo (RL)
- En cada etapa de entrenamiento recibe una descripción del problema y genera la mejor modificación de código, plan o respuesta
- El modelo utiliza herramientas como lectura y edición de archivos, ejecución de comandos en terminal y búsqueda semántica global en la base de código
Durante el proceso de RL, el modelo aprende por sí mismo comportamientos útiles como realizar búsquedas complejas, corregir errores de linter y escribir y ejecutar pruebas unitarias

Evaluación y benchmarks

Cursor Bench es un conjunto interno de evaluación que incluye solicitudes reales de ingeniería y sus mejores respuestas
- Mide la precisión del modelo, el cumplimiento de las abstracciones de la base de código y la alineación con prácticas de ingeniería de software
Composer se clasifica como modelo “Fast Frontier” y se compara con modelos orientados a inferencia eficiente como Haiku 4.5 y Gemini Flash 2.5
- Aunque es más lento que modelos Frontier de primer nivel como GPT-5 y Sonnet 4.5, ofrece alta eficiencia en relación con su velocidad

Infraestructura y diseño del sistema

Para entrenar modelos MoE a gran escala, se construyó una infraestructura asíncrona de RL basada en PyTorch y Ray
- Combina kernels MoE MXFP8, paralelismo entre expertos y paralelismo de datos con particionado híbrido
- Escala el entrenamiento en miles de GPU de NVIDIA minimizando los costos de comunicación
El entrenamiento de baja precisión MXFP8 mejora la velocidad de inferencia y elimina la necesidad de cuantización posterior al procesamiento
Durante RL, el modelo puede invocar todas las herramientas de Cursor Agent
- Incluye edición de código, búsqueda semántica, grep de cadenas y ejecución de comandos de terminal
- Para ello, ejecuta en paralelo cientos de miles de entornos sandbox en la nube
- La infraestructura existente de Background Agents se amplió para manejar cargas de entrenamiento tipo burst

Uso interno y despliegue

El equipo de Cursor utiliza Composer activamente en su propio trabajo de desarrollo
- Muchos ingenieros usan Composer en el desarrollo de software cotidiano
Con este anuncio, esperan que otros desarrolladores también puedan aprovecharlo

Apéndice: clasificación interna de benchmarks

Fast Frontier: modelos de inferencia eficiente (Haiku 4.5, Gemini Flash 2.5, etc.)
Best Open: modelos de pesos abiertos (Qwen Coder, GLM 4.6, etc.)
Frontier 7/2025: mejores modelos a julio de 2025
Best Frontier: modelos con mayor rendimiento que Composer, como GPT-5 y Sonnet 4.5
El cálculo de Tokens per Second está estandarizado con base en el tokenizer más reciente de Anthropic

1 comentarios

GN⁺ 2025-10-30

Comentarios en Hacker News

Me parece que falta demasiada transparencia
Solo publican el rendimiento del modelo con benchmarks propios, y ni siquiera esos datos son públicos, así que es difícil confiar
Hablan del entrenamiento con RL, pero no hay ninguna información clave sobre el pre-training ni sobre si hubo fine-tuning
Hasta que publiquen más detalles o haya benchmarks independientes desde afuera, soy escéptico con todas sus afirmaciones
- Entiendo por qué no publican los benchmarks internos
  Si los publicaran, esos datos podrían terminar en el set de entrenamiento de otros LLM y se perdería la validez científica
  Pero si los mantienen privados, también existe la posibilidad de que hayan elegido solo datos que los favorecen
  Al final, es un dilema difícil de resolver
- En realidad, creo que lo importante son los datos de usuarios reales
  Cursor recopila en tiempo real miles de datos de accept/reject, así que ese es el mejor ciclo de retroalimentación posible
  La reacción de usuarios reales es mucho más útil que un benchmark, y eso permite mejorar el modelo rápidamente
  Últimamente también agregaron la integración de multi-agent + git tree, así que la estructura aprovecha el comportamiento del usuario como señal de aprendizaje
  Creo que este tipo de competencia eleva la calidad de todo el mercado y genera un círculo virtuoso que también baja los costos de uso
Sigo sintiendo que el modelo Tab de Cursor es el mejor
Todo eso está bien explicado en la entrada oficial del blog
Sería realmente interesante si este enfoque pudiera aplicarse también a un modelo de coding agentic
- Nuestro equipo también usa mucho Tab
  De hecho, la motivación de este proyecto nació justamente de la idea de crear un agente como Tab
- Me pregunto si has probado Windsurfs
- El modelo Tab es bueno, pero también da la impresión de ser como una competencia por fabricar mejores látigos para caballos
  Yo casi siempre tengo Claude Code corriendo, y Tab solo interviene cuando el modelo se queda completamente atascado
  Me impresiona que ese tipo de fallas esté ocurriendo cada vez menos
- El modelo Tab es excelente, pero es una lástima que no entienda el contexto de la sesión de chat de IA que está en curso
- La función está bien, pero no me convence el atajo de teclado
  Ojalá lo cambiaran a algo como shift+tab
  Cada vez que escribo código directamente, se siente incómodo, como si estuviera compitiendo con la IA por la indentación
Soy investigador de ML en Cursor y participé en este proyecto
Agradezco cualquier comentario sobre el modelo o la publicación del blog
- La explicación del sistema me pareció impresionante
  Pero si Composer es un modelo abierto al que le hicieron fine-tuning con RL, me pregunto por qué mantienen los pesos cerrados
  Una pequeña ventaja de rendimiento desaparece rápido, así que una estrategia abierta podría ser mejor para ganarse la confianza de los desarrolladores
  Personalmente, me interesan poco los modelos cerrados
- De verdad me sorprendió
  Antes había probado Cursor y lo dejé, pero esta vez Composer1 fue mucho más rápido y preciso que GPT5 Codex
  Como tanto la velocidad como la calidad fueron buenas, pienso volver a usarlo
- El primer gráfico del blog era demasiado ambiguo
  Me habría parecido más justo ver una versión con los nombres individuales en vez de agrupar los modelos
- Hoy pasé el día usando Composer, Sonnet 4.5 y Gemini 2.5 Pro juntos, y la combinación de velocidad y calidad de Composer fue la que más me satisfizo
  Para la etapa de planificación uso Claude, pero en la etapa de ejecución Composer es mucho más eficiente
- Viendo la gráfica logarítmica, parece que haría falta como un 50% más de cómputo para alcanzar un modelo frontier, así que me pregunto por qué detuvieron el entrenamiento ahí
Más o menos Sonnet 4.5 es la línea mínima de calidad que estoy dispuesto a tolerar
Más que la velocidad, lo importante es no tener que pelear para obtener la salida que quiero
Quizá entendí mal, pero me pregunto si todos los modelos comparados en esta publicación son modelos internos de Cursor
- Es curioso que Sonnet 4.5 haya salido hace apenas un mes y ya lo vean como el “mínimo aceptable”
- Creo que hay dos tipos de usuarios
  Uno quiere que el modelo se encargue de tareas largas de forma autónoma,
  y el otro quiere interactuar y colaborar con el modelo
  En el segundo caso la velocidad importa mucho más, y en el primero importa más la inteligencia
  Para mí, la falta de comprensión de contexto es un problema mayor, así que depende del caso
- Sonnet 4.5 es excelente, pero me pregunto si también probaste Composer
- A mí me pasa algo parecido
  Cuando uso modelos que no son Claude, termino gastando más tokens y siendo menos eficiente
  Claude 4.5 Sonnet resuelve la misma tarea a la mitad del costo
- Mencioné la comparación porque muestra qué tan en serio se toma Cursor la experiencia de usuario centrada en la velocidad
  Yo prefiero retroalimentación rápida antes que precisión absoluta
Me da gusto ver un modelo nuevo, pero cuesta confiar cuando en la gráfica faltan los números y los nombres de los modelos
- Sí hay una explicación sobre los modelos en la nota al pie
  Dicen que es difícil publicar los detalles del entrenamiento, pero que obtuvieron el resultado de que RL escala bien
Mucha gente es crítica con Cursor, pero después de probar Copilot, Claude Code, Codex, Gemini CLI, Cline y otros, para mí Cursor es el producto más pulido
Destaca especialmente en velocidad y estabilidad, y se siente como un producto de verdad
- Yo también usé Cursor, pero lo dejé por problemas de confiabilidad
  Era común que las solicitudes se quedaran congeladas por más de 30 segundos, mientras que Claude Code era mucho más rápido y estable
  Hoy volví a probar el modelo nuevo y Composer1 fue rápido, pero seguía habiendo errores de conexión
- Yo también probé varias herramientas, pero al final regresé a Cursor
  Para implementar rápido lo que quiero, Cursor es lo mejor
- Cursor a veces se traba, pero no molesta tanto porque en la UI se puede revertir fácilmente
  El autocompletado también resulta bastante útil durante refactors
- Dices que probaste varias alternativas, pero ¿no has probado Zed?
- Me parece interesante que, incluso después de probar Claude, sigas prefiriendo Cursor
Entre los competidores, Cursor es el único que se toma en serio el tiempo hasta completar la respuesta
En ese aspecto, Cursor va completamente por delante
- A nosotros también nos gustan varios modelos, pero creemos que lo importante es encontrar un punto de equilibrio entre rapidez e inteligencia (investigador de Cursor)
Probé el sistema nuevo y sentí que el rendimiento había bajado
Ni siquiera una app básica funcionó bien, y también falló al manejar CSS y el contexto de terminal
La velocidad además fue empeorando, y al final volví a Sonnet
Espero que no sea la versión estabilizada
Me gusta muchísimo Cursor
He usado varias herramientas como Copilot y Claude, pero al final siempre regreso a Cursor
Sobre todo, el autocompletado Tab es muy preciso para tareas de refactorización
- Hace un mes volví a VS Code + Copilot, pero me rendí después de 4 días
  Era lento y la calidad de las sugerencias era baja
  Cursor es mucho más rápido y sus sugerencias sí son útiles
  Aunque a veces, por ser tan rápido, sigue mostrando sugerencias innecesarias
  Aun así, eso se puede resolver con la función de snooze (pausa temporal)
Hay una imagen del pelícano de Composer 1 andando en bicicleta
Enlace de imagen
- Salió muchísimo mejor de lo que esperaba

Composer: modelo frontier rápido construido con aprendizaje por refuerzo

Resumen de Composer

Contexto de desarrollo

Arquitectura del modelo y método de entrenamiento

Evaluación y benchmarks

Infraestructura y diseño del sistema

Uso interno y despliegue

Apéndice: clasificación interna de benchmarks

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News