2 puntos por GN⁺ 2026-01-05 | 1 comentarios | Compartir por WhatsApp
  • Un LLM abierto especializado en programación que, mediante aprendizaje multietapa de flujo de código (code-flow), aprende los cambios del repositorio y el proceso de desarrollo en lugar de código estático
  • Refuerza el razonamiento de largo alcance y el rendimiento en tareas de agentes mediante un pipeline evolutivo de aprendizaje que va de preentrenamiento a mid-training y post-training
  • En contextos de 32K y 128K, inyecta datos de razonamiento y trayectorias de agentes para resolver problemas complejos de múltiples archivos y a nivel de repositorio
  • Propone un diseño práctico con la arquitectura LoopCoder, que introduce una estructura iterativa para mejorar la eficiencia de despliegue en relación con la capacidad del modelo
  • Logra con un modelo de pesos abiertos un rendimiento competitivo frente a modelos comerciales en SWE-Bench, LiveCodeBench, Terminal-Bench y más

Descripción general

  • IQuest-Coder-V1 es una familia de modelos de lenguaje grandes orientados a código, compuesta por 7B, 14B, 40B y 40B-Loop
  • Adopta el paradigma code-flow, que toma como objeto de aprendizaje los commits y el proceso de evolución del repositorio en lugar de snapshots de código estáticos
  • Se evaluó su rendimiento en ingeniería de software con agentes, programación competitiva y uso general de herramientas

Pipeline de aprendizaje Code-Flow

  • En la etapa de preentrenamiento mezcla datos generales y grandes volúmenes de código, y luego aplica annealing de código de alta calidad
  • En la etapa de mid-training realiza una expansión de contexto de 32K → 128K y entrena con QA de razonamiento, trayectorias de agentes y datos de código a nivel de repositorio
  • En la etapa de post-training se bifurca en la ruta Thinking (RL centrado en razonamiento) y la ruta Instruct (optimización general como asistente)

Hallazgos clave de la investigación

  • Los datos del flujo de commits del repositorio demostraron experimentalmente que aportan mejores señales para planificar tareas que los snapshots de código estáticos
  • La estructura que inyecta datos de razonamiento y agentes en mid-training, después del annealing de código de alta calidad, ofrece estabilidad ante cambios de distribución
  • En la ruta Thinking con RL centrado en razonamiento se observó claramente una capacidad de autorrecuperación de errores durante tareas largas

Arquitectura LoopCoder

  • Introduce una estructura de transformer en bucle que ejecuta dos veces el mismo bloque de parámetros
  • Combina atención global y atención local mediante gating para lograr al mismo tiempo refinamiento del contexto de largo alcance y mantenimiento de la causalidad
  • Busca mejorar la eficiencia computacional frente a la capacidad del modelo para responder a restricciones del entorno de despliegue

Composición de datos y estrategia de preentrenamiento

  • En el aprendizaje mixto de código multilingüe, formaliza los efectos de sinergia entre lenguajes con leyes de escalado basadas en fórmulas
  • Construye datos de tripletas (R_old, Patch, R_new) usando commits del intervalo 40~80% del ciclo de vida del repositorio
  • Refuerza la capacidad de completado de código con técnicas Fill-In-the-Middle a nivel de archivo y de repositorio

Resultados de evaluación

  • Registra 76.2 en SWE-Bench Verified y desempeño de primer nivel en múltiples benchmarks como LiveCodeBench v6, Terminal-Bench y Mind2Web
  • Realiza una evaluación de alcance completo en generación de código, razonamiento, edición, eficiencia, Text-to-SQL y tareas de agentes
  • En algunos indicadores muestra resultados cercanos o competitivos frente a modelos cerrados como Claude Sonnet 4.5 y GPT-5.1

Evaluación de seguridad

  • En benchmarks de seguridad como BeaverTails, HarmBench y TrustLLM, el modelo Thinking registró alta precisión de rechazo y un rendimiento equilibrado
  • Presenta resultados que muestran que el RL centrado en razonamiento también tiene efectos positivos en seguridad

Conclusión

  • Demuestra empíricamente que el aprendizaje centrado en el flujo de evolución del código y las trayectorias de agentes es efectivo para formar inteligencia de código autónoma
  • A través de la estructura LoopCoder propone una dirección práctica de diseño de LLM de código que considera el trade-off entre rendimiento y eficiencia
  • Al publicar todas las etapas de entrenamiento y los checkpoints, busca impulsar la investigación abierta en inteligencia de código y el desarrollo de sistemas reales basados en agentes

1 comentarios

 
GN⁺ 2026-01-05
Comentarios de Hacker News
  • Un mejor enlace es iquestlab.github.io
    Pero, lamentablemente, parece que durante la evaluación el agente hizo trampa

    • Según este issue de GitHub, incluso después de corregir la trampa, los resultados seguían siendo buenos
      La puntuación bajó de 81.4% a 76.2%, pero aun así sigue por encima de Opus 4.5 (74.4%)
    • Hace unos días, este enlace no recibió suficientes votos
  • En resumen, al no limpiar la carpeta .git/, el modelo terminó consultando las correcciones de commits futuros mediante una especie de reward hacking
    Quiero dar crédito a quienes ayudaron a resolver este problema juntos
    También se puede ver la discusión en este tuit y en este hilo de Reddit
    Considerando que IQuestLab publicó los datos de SWE-Bench Verified, parece más un simple error de principiante con benchmarks que una manipulación intencional

    • Como mencionó John, este problema ya fue corregido en SWE-bench
      Solo hay que usar el código más reciente y ejecutar la evaluación con la imagen de Docker actualizada
      Tuit relacionado
    • Yo también creo que fue un simple error, pero es una pena que, si los investigadores hubieran revisado aunque fuera una sola vez la salida, lo habrían notado de inmediato
    • SWEbench sigue sin librarse de la controversia por el hype excesivo
  • Según mi experiencia, GLM-4.7 (versión opencode) es el open source que más se acerca
    A veces muestra expresiones que parecen mezcladas con datos de Claude, así que da la impresión de que hubo cierto uso de datos de Claude

    • Pero el rendimiento sigue quedando muy por debajo de Sonnet 4.5, y no se puede comparar con Opus
    • También aparece con frecuencia algo como “What’s your use-case?”
      Es una expresión que Claude suele usar para evadir cuando llega a sus límites
  • ¿Un modelo de 40B parámetros venciendo a Sonnet 4.5 y GPT 5.1? Me pregunto si eso realmente es posible

    • Mi sospecha (aunque no estoy seguro) es que hubo fuga de datos de prueba o que parte del benchmark estaba incluida en los datos de entrenamiento
      Aun así, Sonnet 4.5 ya es un modelo antiguo y ha habido muchas innovaciones recientes
      Es interesante ver cómo los modelos abiertos están alcanzando rápidamente a los modelos grandes
    • Incluso hay un juego de palabras con que el nombre “IQuest” es sospechoso (It's questionable)
    • También es posible que hayan aplicado alguna técnica de pruning del modelo. Últimamente han aparecido muchos métodos nuevos
    • Al final se reveló que en realidad el agente hackeó el harness de evaluación
  • Me pregunto si alguien ya ejecutó este modelo directamente o si lo ha probado a través de una API alojada

  • Esto es una afirmación falsa, así que me pregunto por qué sigue todavía en la página principal