- Un LLM abierto especializado en programación que, mediante aprendizaje multietapa de flujo de código (code-flow), aprende los cambios del repositorio y el proceso de desarrollo en lugar de código estático
- Refuerza el razonamiento de largo alcance y el rendimiento en tareas de agentes mediante un pipeline evolutivo de aprendizaje que va de preentrenamiento a mid-training y post-training
- En contextos de 32K y 128K, inyecta datos de razonamiento y trayectorias de agentes para resolver problemas complejos de múltiples archivos y a nivel de repositorio
- Propone un diseño práctico con la arquitectura LoopCoder, que introduce una estructura iterativa para mejorar la eficiencia de despliegue en relación con la capacidad del modelo
- Logra con un modelo de pesos abiertos un rendimiento competitivo frente a modelos comerciales en SWE-Bench, LiveCodeBench, Terminal-Bench y más
Descripción general
- IQuest-Coder-V1 es una familia de modelos de lenguaje grandes orientados a código, compuesta por 7B, 14B, 40B y 40B-Loop
- Adopta el paradigma code-flow, que toma como objeto de aprendizaje los commits y el proceso de evolución del repositorio en lugar de snapshots de código estáticos
- Se evaluó su rendimiento en ingeniería de software con agentes, programación competitiva y uso general de herramientas
Pipeline de aprendizaje Code-Flow
- En la etapa de preentrenamiento mezcla datos generales y grandes volúmenes de código, y luego aplica annealing de código de alta calidad
- En la etapa de mid-training realiza una expansión de contexto de 32K → 128K y entrena con QA de razonamiento, trayectorias de agentes y datos de código a nivel de repositorio
- En la etapa de post-training se bifurca en la ruta Thinking (RL centrado en razonamiento) y la ruta Instruct (optimización general como asistente)
Hallazgos clave de la investigación
- Los datos del flujo de commits del repositorio demostraron experimentalmente que aportan mejores señales para planificar tareas que los snapshots de código estáticos
- La estructura que inyecta datos de razonamiento y agentes en mid-training, después del annealing de código de alta calidad, ofrece estabilidad ante cambios de distribución
- En la ruta Thinking con RL centrado en razonamiento se observó claramente una capacidad de autorrecuperación de errores durante tareas largas
Arquitectura LoopCoder
- Introduce una estructura de transformer en bucle que ejecuta dos veces el mismo bloque de parámetros
- Combina atención global y atención local mediante gating para lograr al mismo tiempo refinamiento del contexto de largo alcance y mantenimiento de la causalidad
- Busca mejorar la eficiencia computacional frente a la capacidad del modelo para responder a restricciones del entorno de despliegue
Composición de datos y estrategia de preentrenamiento
- En el aprendizaje mixto de código multilingüe, formaliza los efectos de sinergia entre lenguajes con leyes de escalado basadas en fórmulas
- Construye datos de tripletas (R_old, Patch, R_new) usando commits del intervalo 40~80% del ciclo de vida del repositorio
- Refuerza la capacidad de completado de código con técnicas Fill-In-the-Middle a nivel de archivo y de repositorio
Resultados de evaluación
- Registra 76.2 en SWE-Bench Verified y desempeño de primer nivel en múltiples benchmarks como LiveCodeBench v6, Terminal-Bench y Mind2Web
- Realiza una evaluación de alcance completo en generación de código, razonamiento, edición, eficiencia, Text-to-SQL y tareas de agentes
- En algunos indicadores muestra resultados cercanos o competitivos frente a modelos cerrados como Claude Sonnet 4.5 y GPT-5.1
Evaluación de seguridad
- En benchmarks de seguridad como BeaverTails, HarmBench y TrustLLM, el modelo Thinking registró alta precisión de rechazo y un rendimiento equilibrado
- Presenta resultados que muestran que el RL centrado en razonamiento también tiene efectos positivos en seguridad
Conclusión
- Demuestra empíricamente que el aprendizaje centrado en el flujo de evolución del código y las trayectorias de agentes es efectivo para formar inteligencia de código autónoma
- A través de la estructura LoopCoder propone una dirección práctica de diseño de LLM de código que considera el trade-off entre rendimiento y eficiencia
- Al publicar todas las etapas de entrenamiento y los checkpoints, busca impulsar la investigación abierta en inteligencia de código y el desarrollo de sistemas reales basados en agentes
1 comentarios
Comentarios de Hacker News
Un mejor enlace es iquestlab.github.io
Pero, lamentablemente, parece que durante la evaluación el agente hizo trampa
La puntuación bajó de 81.4% a 76.2%, pero aun así sigue por encima de Opus 4.5 (74.4%)
En resumen, al no limpiar la carpeta
.git/, el modelo terminó consultando las correcciones de commits futuros mediante una especie de reward hackingQuiero dar crédito a quienes ayudaron a resolver este problema juntos
También se puede ver la discusión en este tuit y en este hilo de Reddit
Considerando que IQuestLab publicó los datos de SWE-Bench Verified, parece más un simple error de principiante con benchmarks que una manipulación intencional
Solo hay que usar el código más reciente y ejecutar la evaluación con la imagen de Docker actualizada
Tuit relacionado
Según mi experiencia, GLM-4.7 (versión opencode) es el open source que más se acerca
A veces muestra expresiones que parecen mezcladas con datos de Claude, así que da la impresión de que hubo cierto uso de datos de Claude
Es una expresión que Claude suele usar para evadir cuando llega a sus límites
¿Un modelo de 40B parámetros venciendo a Sonnet 4.5 y GPT 5.1? Me pregunto si eso realmente es posible
Aun así, Sonnet 4.5 ya es un modelo antiguo y ha habido muchas innovaciones recientes
Es interesante ver cómo los modelos abiertos están alcanzando rápidamente a los modelos grandes
Me pregunto si alguien ya ejecutó este modelo directamente o si lo ha probado a través de una API alojada
Esto es una afirmación falsa, así que me pregunto por qué sigue todavía en la página principal