2 puntos por GN⁺ 2025-10-30 | 1 comentarios | Compartir por WhatsApp
  • Composer, presentado por Cursor, es un modelo de agente inteligente de alta velocidad para ingeniería de software que logra una velocidad de generación de código 4 veces mayor que modelos similares
  • Se entrena para resolver problemas reales en bases de código a gran escala y utiliza herramientas de búsqueda y edición para abordar tareas de distinta dificultad
  • Combina una arquitectura Mixture-of-Experts (MoE) con aprendizaje por refuerzo (RL) para admitir comprensión y generación en contexto largo en edición de código, planificación y respuestas
  • Mediante la evaluación Cursor Bench, mide no solo la precisión del modelo sino también la consistencia con la base de código y el cumplimiento de prácticas de ingeniería
  • Aprovecha una infraestructura asíncrona de RL basada en PyTorch y Ray y entrenamiento de baja precisión MXFP8 para entrenar eficientemente en miles de GPU y mejorar la velocidad de inferencia

Resumen de Composer

  • Composer es un nuevo modelo de agente desarrollado con el objetivo de ofrecer inteligencia y velocidad para ingeniería de software
    • En benchmarks registró una velocidad de generación de código 4 veces mayor que modelos similares
    • Está optimizado dentro de Cursor como agente para resolver problemas en bases de código a gran escala
  • El modelo se entrena para resolver problemas de distinta dificultad en entornos reales usando herramientas de búsqueda y edición
    • Con ello ofrece una experiencia de desarrollo interactiva y de alta velocidad

Contexto de desarrollo

  • Composer surge de la experiencia de Cursor desarrollando su modelo personalizado de autocompletado de código (Cursor Tab)
    • Confirmaron que los desarrolladores prefieren modelos inteligentes pero con respuesta rápida
  • Basado en el modelo experimental inicial Cheetah, Composer fue diseñado como una versión más rápida y más inteligente
    • El objetivo era construir un modelo que ofreciera respuesta inmediata sin interrumpir el flujo de desarrollo

Arquitectura del modelo y método de entrenamiento

  • Composer es un modelo de lenguaje Mixture-of-Experts (MoE) que admite comprensión y generación en contexto largo
  • Se especializa en distintos entornos de desarrollo mediante aprendizaje por refuerzo (RL)
    • En cada etapa de entrenamiento recibe una descripción del problema y genera la mejor modificación de código, plan o respuesta
    • El modelo utiliza herramientas como lectura y edición de archivos, ejecución de comandos en terminal y búsqueda semántica global en la base de código
  • Durante el proceso de RL, el modelo aprende por sí mismo comportamientos útiles como realizar búsquedas complejas, corregir errores de linter y escribir y ejecutar pruebas unitarias

Evaluación y benchmarks

  • Cursor Bench es un conjunto interno de evaluación que incluye solicitudes reales de ingeniería y sus mejores respuestas
    • Mide la precisión del modelo, el cumplimiento de las abstracciones de la base de código y la alineación con prácticas de ingeniería de software
  • Composer se clasifica como modelo “Fast Frontier” y se compara con modelos orientados a inferencia eficiente como Haiku 4.5 y Gemini Flash 2.5
    • Aunque es más lento que modelos Frontier de primer nivel como GPT-5 y Sonnet 4.5, ofrece alta eficiencia en relación con su velocidad

Infraestructura y diseño del sistema

  • Para entrenar modelos MoE a gran escala, se construyó una infraestructura asíncrona de RL basada en PyTorch y Ray
    • Combina kernels MoE MXFP8, paralelismo entre expertos y paralelismo de datos con particionado híbrido
    • Escala el entrenamiento en miles de GPU de NVIDIA minimizando los costos de comunicación
  • El entrenamiento de baja precisión MXFP8 mejora la velocidad de inferencia y elimina la necesidad de cuantización posterior al procesamiento
  • Durante RL, el modelo puede invocar todas las herramientas de Cursor Agent
    • Incluye edición de código, búsqueda semántica, grep de cadenas y ejecución de comandos de terminal
    • Para ello, ejecuta en paralelo cientos de miles de entornos sandbox en la nube
    • La infraestructura existente de Background Agents se amplió para manejar cargas de entrenamiento tipo burst

Uso interno y despliegue

  • El equipo de Cursor utiliza Composer activamente en su propio trabajo de desarrollo
    • Muchos ingenieros usan Composer en el desarrollo de software cotidiano
  • Con este anuncio, esperan que otros desarrolladores también puedan aprovecharlo

Apéndice: clasificación interna de benchmarks

  • Fast Frontier: modelos de inferencia eficiente (Haiku 4.5, Gemini Flash 2.5, etc.)
  • Best Open: modelos de pesos abiertos (Qwen Coder, GLM 4.6, etc.)
  • Frontier 7/2025: mejores modelos a julio de 2025
  • Best Frontier: modelos con mayor rendimiento que Composer, como GPT-5 y Sonnet 4.5
  • El cálculo de Tokens per Second está estandarizado con base en el tokenizer más reciente de Anthropic

1 comentarios

 
GN⁺ 2025-10-30
Comentarios en Hacker News
  • Me parece que falta demasiada transparencia
    Solo publican el rendimiento del modelo con benchmarks propios, y ni siquiera esos datos son públicos, así que es difícil confiar
    Hablan del entrenamiento con RL, pero no hay ninguna información clave sobre el pre-training ni sobre si hubo fine-tuning
    Hasta que publiquen más detalles o haya benchmarks independientes desde afuera, soy escéptico con todas sus afirmaciones

    • Entiendo por qué no publican los benchmarks internos
      Si los publicaran, esos datos podrían terminar en el set de entrenamiento de otros LLM y se perdería la validez científica
      Pero si los mantienen privados, también existe la posibilidad de que hayan elegido solo datos que los favorecen
      Al final, es un dilema difícil de resolver
    • En realidad, creo que lo importante son los datos de usuarios reales
      Cursor recopila en tiempo real miles de datos de accept/reject, así que ese es el mejor ciclo de retroalimentación posible
      La reacción de usuarios reales es mucho más útil que un benchmark, y eso permite mejorar el modelo rápidamente
      Últimamente también agregaron la integración de multi-agent + git tree, así que la estructura aprovecha el comportamiento del usuario como señal de aprendizaje
      Creo que este tipo de competencia eleva la calidad de todo el mercado y genera un círculo virtuoso que también baja los costos de uso
  • Sigo sintiendo que el modelo Tab de Cursor es el mejor
    Todo eso está bien explicado en la entrada oficial del blog
    Sería realmente interesante si este enfoque pudiera aplicarse también a un modelo de coding agentic

    • Nuestro equipo también usa mucho Tab
      De hecho, la motivación de este proyecto nació justamente de la idea de crear un agente como Tab
    • Me pregunto si has probado Windsurfs
    • El modelo Tab es bueno, pero también da la impresión de ser como una competencia por fabricar mejores látigos para caballos
      Yo casi siempre tengo Claude Code corriendo, y Tab solo interviene cuando el modelo se queda completamente atascado
      Me impresiona que ese tipo de fallas esté ocurriendo cada vez menos
    • El modelo Tab es excelente, pero es una lástima que no entienda el contexto de la sesión de chat de IA que está en curso
    • La función está bien, pero no me convence el atajo de teclado
      Ojalá lo cambiaran a algo como shift+tab
      Cada vez que escribo código directamente, se siente incómodo, como si estuviera compitiendo con la IA por la indentación
  • Soy investigador de ML en Cursor y participé en este proyecto
    Agradezco cualquier comentario sobre el modelo o la publicación del blog

    • La explicación del sistema me pareció impresionante
      Pero si Composer es un modelo abierto al que le hicieron fine-tuning con RL, me pregunto por qué mantienen los pesos cerrados
      Una pequeña ventaja de rendimiento desaparece rápido, así que una estrategia abierta podría ser mejor para ganarse la confianza de los desarrolladores
      Personalmente, me interesan poco los modelos cerrados
    • De verdad me sorprendió
      Antes había probado Cursor y lo dejé, pero esta vez Composer1 fue mucho más rápido y preciso que GPT5 Codex
      Como tanto la velocidad como la calidad fueron buenas, pienso volver a usarlo
    • El primer gráfico del blog era demasiado ambiguo
      Me habría parecido más justo ver una versión con los nombres individuales en vez de agrupar los modelos
    • Hoy pasé el día usando Composer, Sonnet 4.5 y Gemini 2.5 Pro juntos, y la combinación de velocidad y calidad de Composer fue la que más me satisfizo
      Para la etapa de planificación uso Claude, pero en la etapa de ejecución Composer es mucho más eficiente
    • Viendo la gráfica logarítmica, parece que haría falta como un 50% más de cómputo para alcanzar un modelo frontier, así que me pregunto por qué detuvieron el entrenamiento ahí
  • Más o menos Sonnet 4.5 es la línea mínima de calidad que estoy dispuesto a tolerar
    Más que la velocidad, lo importante es no tener que pelear para obtener la salida que quiero
    Quizá entendí mal, pero me pregunto si todos los modelos comparados en esta publicación son modelos internos de Cursor

    • Es curioso que Sonnet 4.5 haya salido hace apenas un mes y ya lo vean como el “mínimo aceptable”
    • Creo que hay dos tipos de usuarios
      Uno quiere que el modelo se encargue de tareas largas de forma autónoma,
      y el otro quiere interactuar y colaborar con el modelo
      En el segundo caso la velocidad importa mucho más, y en el primero importa más la inteligencia
      Para mí, la falta de comprensión de contexto es un problema mayor, así que depende del caso
    • Sonnet 4.5 es excelente, pero me pregunto si también probaste Composer
    • A mí me pasa algo parecido
      Cuando uso modelos que no son Claude, termino gastando más tokens y siendo menos eficiente
      Claude 4.5 Sonnet resuelve la misma tarea a la mitad del costo
    • Mencioné la comparación porque muestra qué tan en serio se toma Cursor la experiencia de usuario centrada en la velocidad
      Yo prefiero retroalimentación rápida antes que precisión absoluta
  • Me da gusto ver un modelo nuevo, pero cuesta confiar cuando en la gráfica faltan los números y los nombres de los modelos

    • Sí hay una explicación sobre los modelos en la nota al pie
      Dicen que es difícil publicar los detalles del entrenamiento, pero que obtuvieron el resultado de que RL escala bien
  • Mucha gente es crítica con Cursor, pero después de probar Copilot, Claude Code, Codex, Gemini CLI, Cline y otros, para mí Cursor es el producto más pulido
    Destaca especialmente en velocidad y estabilidad, y se siente como un producto de verdad

    • Yo también usé Cursor, pero lo dejé por problemas de confiabilidad
      Era común que las solicitudes se quedaran congeladas por más de 30 segundos, mientras que Claude Code era mucho más rápido y estable
      Hoy volví a probar el modelo nuevo y Composer1 fue rápido, pero seguía habiendo errores de conexión
    • Yo también probé varias herramientas, pero al final regresé a Cursor
      Para implementar rápido lo que quiero, Cursor es lo mejor
    • Cursor a veces se traba, pero no molesta tanto porque en la UI se puede revertir fácilmente
      El autocompletado también resulta bastante útil durante refactors
    • Dices que probaste varias alternativas, pero ¿no has probado Zed?
    • Me parece interesante que, incluso después de probar Claude, sigas prefiriendo Cursor
  • Entre los competidores, Cursor es el único que se toma en serio el tiempo hasta completar la respuesta
    En ese aspecto, Cursor va completamente por delante

    • A nosotros también nos gustan varios modelos, pero creemos que lo importante es encontrar un punto de equilibrio entre rapidez e inteligencia (investigador de Cursor)
  • Probé el sistema nuevo y sentí que el rendimiento había bajado
    Ni siquiera una app básica funcionó bien, y también falló al manejar CSS y el contexto de terminal
    La velocidad además fue empeorando, y al final volví a Sonnet
    Espero que no sea la versión estabilizada

  • Me gusta muchísimo Cursor
    He usado varias herramientas como Copilot y Claude, pero al final siempre regreso a Cursor
    Sobre todo, el autocompletado Tab es muy preciso para tareas de refactorización

    • Hace un mes volví a VS Code + Copilot, pero me rendí después de 4 días
      Era lento y la calidad de las sugerencias era baja
      Cursor es mucho más rápido y sus sugerencias sí son útiles
      Aunque a veces, por ser tan rápido, sigue mostrando sugerencias innecesarias
      Aun así, eso se puede resolver con la función de snooze (pausa temporal)
  • Hay una imagen del pelícano de Composer 1 andando en bicicleta
    Enlace de imagen

    • Salió muchísimo mejor de lo que esperaba