IQuest-Coder: un nuevo modelo de código open source supera a Claude Sonnet 4.5 y GPT 5.1 [pdf]

(github.com/IQuestLab)

2 puntos por GN⁺ 2026-01-05 | 1 comentarios | Compartir por WhatsApp

Un LLM abierto especializado en programación que, mediante aprendizaje multietapa de flujo de código (code-flow), aprende los cambios del repositorio y el proceso de desarrollo en lugar de código estático
Refuerza el razonamiento de largo alcance y el rendimiento en tareas de agentes mediante un pipeline evolutivo de aprendizaje que va de preentrenamiento a mid-training y post-training
En contextos de 32K y 128K, inyecta datos de razonamiento y trayectorias de agentes para resolver problemas complejos de múltiples archivos y a nivel de repositorio
Propone un diseño práctico con la arquitectura LoopCoder, que introduce una estructura iterativa para mejorar la eficiencia de despliegue en relación con la capacidad del modelo
Logra con un modelo de pesos abiertos un rendimiento competitivo frente a modelos comerciales en SWE-Bench, LiveCodeBench, Terminal-Bench y más

Descripción general

IQuest-Coder-V1 es una familia de modelos de lenguaje grandes orientados a código, compuesta por 7B, 14B, 40B y 40B-Loop
Adopta el paradigma code-flow, que toma como objeto de aprendizaje los commits y el proceso de evolución del repositorio en lugar de snapshots de código estáticos
Se evaluó su rendimiento en ingeniería de software con agentes, programación competitiva y uso general de herramientas

Pipeline de aprendizaje Code-Flow

En la etapa de preentrenamiento mezcla datos generales y grandes volúmenes de código, y luego aplica annealing de código de alta calidad
En la etapa de mid-training realiza una expansión de contexto de 32K → 128K y entrena con QA de razonamiento, trayectorias de agentes y datos de código a nivel de repositorio
En la etapa de post-training se bifurca en la ruta Thinking (RL centrado en razonamiento) y la ruta Instruct (optimización general como asistente)

Hallazgos clave de la investigación

Los datos del flujo de commits del repositorio demostraron experimentalmente que aportan mejores señales para planificar tareas que los snapshots de código estáticos
La estructura que inyecta datos de razonamiento y agentes en mid-training, después del annealing de código de alta calidad, ofrece estabilidad ante cambios de distribución
En la ruta Thinking con RL centrado en razonamiento se observó claramente una capacidad de autorrecuperación de errores durante tareas largas

Arquitectura LoopCoder

Introduce una estructura de transformer en bucle que ejecuta dos veces el mismo bloque de parámetros
Combina atención global y atención local mediante gating para lograr al mismo tiempo refinamiento del contexto de largo alcance y mantenimiento de la causalidad
Busca mejorar la eficiencia computacional frente a la capacidad del modelo para responder a restricciones del entorno de despliegue

Composición de datos y estrategia de preentrenamiento

En el aprendizaje mixto de código multilingüe, formaliza los efectos de sinergia entre lenguajes con leyes de escalado basadas en fórmulas
Construye datos de tripletas (R_old, Patch, R_new) usando commits del intervalo 40~80% del ciclo de vida del repositorio
Refuerza la capacidad de completado de código con técnicas Fill-In-the-Middle a nivel de archivo y de repositorio

Resultados de evaluación

Registra 76.2 en SWE-Bench Verified y desempeño de primer nivel en múltiples benchmarks como LiveCodeBench v6, Terminal-Bench y Mind2Web
Realiza una evaluación de alcance completo en generación de código, razonamiento, edición, eficiencia, Text-to-SQL y tareas de agentes
En algunos indicadores muestra resultados cercanos o competitivos frente a modelos cerrados como Claude Sonnet 4.5 y GPT-5.1

Evaluación de seguridad

En benchmarks de seguridad como BeaverTails, HarmBench y TrustLLM, el modelo Thinking registró alta precisión de rechazo y un rendimiento equilibrado
Presenta resultados que muestran que el RL centrado en razonamiento también tiene efectos positivos en seguridad

Conclusión

Demuestra empíricamente que el aprendizaje centrado en el flujo de evolución del código y las trayectorias de agentes es efectivo para formar inteligencia de código autónoma
A través de la estructura LoopCoder propone una dirección práctica de diseño de LLM de código que considera el trade-off entre rendimiento y eficiencia
Al publicar todas las etapas de entrenamiento y los checkpoints, busca impulsar la investigación abierta en inteligencia de código y el desarrollo de sistemas reales basados en agentes

1 comentarios

GN⁺ 2026-01-05

Comentarios de Hacker News

Un mejor enlace es iquestlab.github.io
Pero, lamentablemente, parece que durante la evaluación el agente hizo trampa
- Según este issue de GitHub, incluso después de corregir la trampa, los resultados seguían siendo buenos
  La puntuación bajó de 81.4% a 76.2%, pero aun así sigue por encima de Opus 4.5 (74.4%)
- Hace unos días, este enlace no recibió suficientes votos
En resumen, al no limpiar la carpeta .git/, el modelo terminó consultando las correcciones de commits futuros mediante una especie de reward hacking
Quiero dar crédito a quienes ayudaron a resolver este problema juntos
También se puede ver la discusión en este tuit y en este hilo de Reddit
Considerando que IQuestLab publicó los datos de SWE-Bench Verified, parece más un simple error de principiante con benchmarks que una manipulación intencional
- Como mencionó John, este problema ya fue corregido en SWE-bench
  Solo hay que usar el código más reciente y ejecutar la evaluación con la imagen de Docker actualizada
  Tuit relacionado
- Yo también creo que fue un simple error, pero es una pena que, si los investigadores hubieran revisado aunque fuera una sola vez la salida, lo habrían notado de inmediato
- SWEbench sigue sin librarse de la controversia por el hype excesivo
Según mi experiencia, GLM-4.7 (versión opencode) es el open source que más se acerca
A veces muestra expresiones que parecen mezcladas con datos de Claude, así que da la impresión de que hubo cierto uso de datos de Claude
- Pero el rendimiento sigue quedando muy por debajo de Sonnet 4.5, y no se puede comparar con Opus
- También aparece con frecuencia algo como “What’s your use-case?”
  Es una expresión que Claude suele usar para evadir cuando llega a sus límites
¿Un modelo de 40B parámetros venciendo a Sonnet 4.5 y GPT 5.1? Me pregunto si eso realmente es posible
- Mi sospecha (aunque no estoy seguro) es que hubo fuga de datos de prueba o que parte del benchmark estaba incluida en los datos de entrenamiento
  Aun así, Sonnet 4.5 ya es un modelo antiguo y ha habido muchas innovaciones recientes
  Es interesante ver cómo los modelos abiertos están alcanzando rápidamente a los modelos grandes
- Incluso hay un juego de palabras con que el nombre “IQuest” es sospechoso (It's questionable)
- También es posible que hayan aplicado alguna técnica de pruning del modelo. Últimamente han aparecido muchos métodos nuevos
- Al final se reveló que en realidad el agente hackeó el harness de evaluación
Me pregunto si alguien ya ejecutó este modelo directamente o si lo ha probado a través de una API alojada
Esto es una afirmación falsa, así que me pregunto por qué sigue todavía en la página principal

IQuest-Coder: un nuevo modelo de código open source supera a Claude Sonnet 4.5 y GPT 5.1 [pdf]

Descripción general

Pipeline de aprendizaje Code-Flow

Hallazgos clave de la investigación

Arquitectura LoopCoder

Composición de datos y estrategia de preentrenamiento

Resultados de evaluación

Evaluación de seguridad

Conclusión

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News