6 puntos por GN⁺ 2026-02-04 | 1 comentarios | Compartir por WhatsApp
  • Qwen3-Coder-Next es un modelo de lenguaje de pesos abiertos diseñado para agentes de programación y entornos de desarrollo locales, basado en una arquitectura de atención híbrida y MoE
  • Fue entrenado mediante síntesis de tareas ejecutables a gran escala, interacción con el entorno y aprendizaje por refuerzo, por lo que ofrece sólidas capacidades de programación y de agente incluso con un bajo costo de inferencia
  • En lugar de centrarse solo en ampliar parámetros, pone el foco en la ampliación de las señales de entrenamiento del agente, aprovechando tareas de programación verificables y entornos ejecutables para aprender directamente de la retroalimentación
  • Supera el 70% en SWE-Bench Verified y muestra un rendimiento competitivo frente a modelos grandes también en SWE-Bench Pro y en entornos multilingües
  • A pesar de ser un modelo pequeño, logra un equilibrio de Pareto entre eficiencia y rendimiento, lo que tiene implicaciones importantes para el despliegue rentable de agentes

Resumen de Qwen3-Coder-Next

  • Qwen3-Coder-Next es un modelo de lenguaje de pesos abiertos basado en Qwen3-Next-80B-A3B-Base
    • Adopta una arquitectura de atención híbrida y Mixture of Experts (MoE)
    • Fue entrenado mediante síntesis de tareas ejecutables a gran escala, interacción con el entorno y aprendizaje por refuerzo
  • Su objetivo es el uso eficiente en agentes de programación y entornos de desarrollo locales
    • Ofrece sólidas capacidades de razonamiento y rendimiento de programación incluso con un bajo costo de inferencia

Enfoque de ampliación del entrenamiento de agentes

  • El modelo se enfoca más en la ampliación de las señales de entrenamiento del agente que en la ampliación del número de parámetros
    • Combina tareas de programación verificables con entornos ejecutables para aprender directamente de la retroalimentación del entorno
  • Etapas principales del entrenamiento
    • Preentrenamiento continuo con datos centrados en código y agentes
    • Ajuste fino supervisado utilizando datos de trayectorias de agentes de alta calidad
    • Entrenamiento especializado por dominio en ingeniería de software, QA y web/UX, entre otros
    • Destilación de varios modelos expertos en un único modelo desplegable
  • Este enfoque refuerza las capacidades de razonamiento a largo plazo, uso de herramientas y recuperación ante fallos de ejecución

Rendimiento en benchmarks de agentes de programación

  • Fue evaluado en varios benchmarks, como SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0 y Aider
    • Supera el 70% en SWE-Bench Verified
    • Mantiene competitividad también en SWE-Bench Pro y en entornos multilingües
    • A pesar de tener un número reducido de parámetros activos, iguala o supera a modelos open source más grandes
  • En tareas de agentes de múltiples turnos, se confirmó que al aumentar el número de turnos del agente se fortalecen las capacidades de razonamiento a largo plazo

Equilibrio entre eficiencia y rendimiento

  • Qwen3-Coder-Next (3B active) logra un rendimiento en SWE-Bench-Pro similar al de modelos entre 10 y 20 veces más grandes
  • Aunque los modelos propietarios basados en atención completa lideran en rendimiento absoluto, Qwen3-Coder-Next se sitúa en una frontera de Pareto superior en términos de eficiencia por costo
  • Esto muestra que es un modelo adecuado para el despliegue rentable de agentes

Demostraciones y ejemplos de aplicación

  • Como modelo coder pequeño y rápido, puede integrarse en diversos entornos de aplicación
    • Fue demostrado en OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use y Cline, entre otros
    • Puede usarse vía web a través de coder.qwen.ai

Resumen y planes futuros

  • Qwen3-Coder-Next demostró excelente velocidad y capacidad de razonamiento en benchmarks de agentes de programación
  • Aunque muestra un rendimiento competitivo incluso frente a grandes modelos open source, todavía hay margen de mejora
  • En el futuro, planean reforzar las capacidades de uso de herramientas, resolución de problemas complejos y toma de decisiones
    • Además de ampliar el soporte para más tareas y realizar actualizaciones rápidas basadas en la retroalimentación de los usuarios

1 comentarios

 
GN⁺ 2026-02-04
Comentarios en Hacker News
  • Este modelo GGUF pesa 48.4GB, así que puede ejecutarse incluso en una laptop de gama alta
    Hasta ahora no había visto un modelo local que realmente pudiera correr un agente de programación al nivel de Codex CLI o Claude Code en mi MacBook Pro de 64GB
    Me pregunto si esta vez será diferente. La guía de Unsloth hace pensar que sí podría ser posible

    • Creo que hace falta un término nuevo en vez de “modelo local”, algo como “modelo en mi computadora”
      Decir simplemente “local” porque está conectado con llama.cpp en la misma máquina se queda corto. Cuando yo digo local, me refiero a un modelo LAN, es decir, algo que pueda hacer inferencia “gratis” en hardware que yo controlo directamente
      Por ejemplo, una configuración con 5090 + Threadripper + 256GB RAM cuesta alrededor de 10 mil dólares, y la ruta con MLX ronda los 6 mil dólares
      La arquitectura interna del modelo y el método de cuantización afectan mucho el uso real de memoria, así que comparar solo por cantidad de parámetros cada vez tiene menos sentido
      Por eso creo que hace falta un sistema para hacer benchmarks de tareas reales como tool calling, generación de código y procesamiento de documentos sobre una base de hardware estandarizada
    • Yo estoy ejecutando Qwen3-Coder-30B-A3B-Instruct gguf en una VM con 13GB de RAM y una GPU RTX 2060 de 6GB
      Incluso en una laptop Razer Blade vieja funciona con bastante estabilidad hasta 64k de contexto
      Para proyectos pequeños, corrección de bugs o mejoras de UI, sirve bastante bien
      Aun así, creo que el criterio de qué es “usable” cambia según la persona. La evaluación también depende del tipo de tarea que hayas intentado
    • Probé GPT-OSS-120b (MXFP4) junto con Codex y usa alrededor de 66GB de VRAM
      Reunir buenos logs de ejecución del modelo 120b y hacer fine-tuning de una versión 20b podría resultar bastante útil
      Si subes reasoning_effort da resultados bastante decentes, pero por el límite de 64GB de memoria, mejorar el 20b parece lo más realista
    • Configuré Claude Code con un modelo local (ollama run glm-4.7-flash) y lo corrí en una Mac mini M2 Pro de 32GB
      Para ordenar código de proyectos git antiguos, documentar y agregar tests, fue totalmente utilizable
      Tal vez mis estándares sean bajos, pero como asistente local para programar me dejó bastante satisfecho
    • En unos 5 años, probablemente la mayoría de los modelos podrán ejecutarse en local
      Si sigue creciendo la producción de GPU y memoria, y los modelos se siguen optimizando, incluso hardware de gama media podría ofrecer un rendimiento suficientemente bueno
  • Subí el Dynamic Unsloth GGUF para despliegue local a Hugging Face,
    y también escribí una guía para usar Claude Code / Codex en local

    • En mi sistema funciona a unos 39 tok/s, con uso de GPU alrededor del 60%
      Corrí el servidor de llama.cpp en un entorno basado en Radeon RX 7900 XTX, y funcionó de forma estable con la configuración ctx-size 32768
    • Recibí comentarios de gente que lo está usando en Framework Desktop
      También preguntaron por qué convendría usar la versión de Unsloth en lugar del GGUF base de Qwen3
    • También hubo pedidos para que IQuest-Coder se distribuya de la misma manera
    • Hubo una pregunta sobre la diferencia entre la versión UD y la versión normal
    • También hubo reacciones de sorpresa tipo “¿cómo fue posible hacer esto tan rápido?”
  • Instalé llama.cpp con Homebrew y ejecuté en local un modelo cuantizado de Unsloth
    Pude levantar al mismo tiempo la interfaz CLI y un servidor API compatible con OpenAI, usando alrededor de 28GB de RAM

    • Alguien preguntó cuál era la velocidad en tokens (token/s)
    • Otra persona quiso saber cuál era la impresión general
  • Si este modelo realmente cumple lo que promete, que entregue rendimiento de programación al nivel de Sonnet 4.5 con 3B de parámetros activos sería algo enorme

    • Probé las versiones cuantizadas Q2 y Q4, y aunque sorprende que corran en local, no están al nivel de Sonnet 4.5
      Incluso en problemas simples había errores, y a veces caía en un thinking loop
      Puede que sea un bug de implementación inicial, pero por ahora la afirmación de rendimiento me parece exagerada
    • Por sensación, está más cerca del nivel de Haiku
    • Me hace pensar en eso de que “si parece demasiado bueno, probablemente no sea real”
  • Probé Qwen3 Coder 30B en una Mac M4 Max (36GB) de forma local
    Era lento, pero funcionó y dio resultados bastante buenos
    Comparto un video de demostración y un blog con la configuración

  • En una laptop con 6GB de VRAM obtuve 17 tok/s, y fue posible llegar hasta 100k de contexto
    Es impresionante, pero al final sigue siendo lento, así que probablemente voy a seguir usando inferencia en la nube
    Comparto un [ejemplo de configuración de docker-compose]

  • Hice benchmarks del modelo FP8 en un entorno con DGX Spark + vLLM 0.15.1
    Con una sola solicitud da unos 43 tok/s, y con solicitudes en paralelo llega hasta 62 tok/s

    • Probé correr el modelo FP8 en vLLM, pero durante la ejecución se descuantiza a BF16, lo que provoca swapping de memoria
      La versión cuantizada a 4-bit de llama.cpp da unos 30~35 tok/s, y usa solo 50GB de RAM incluso con 200k de contexto
  • Con 3B de parámetros activos rinde un poco por debajo de GLM 4.7, pero la eficiencia es sorprendente
    Creo que si se usa este agente de programación rápido pero simple junto con un orquestador, la velocidad total podría ser incluso mejor

    • Yo aprovecho la función de sub-agentes de Claude para correr agentes de TypeScript basados en Mastra desde la CLI
      Automatiza tareas repetitivas como escaneo de código, búsqueda de librerías y exploración de SourceGraph
      Gracias a la función de Workspace de Mastra, ahora es posible un desarrollo con agentes mucho más potente
    • Al final, para que todo esto se use más ampliamente, probablemente hará falta que las grandes empresas de IA suban los precios
  • Probé lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0 en Strix Halo,
    y dio 32 tok/s con hasta 128k de contexto. Es un poco más débil que MiniMax M2.1 Q6, pero igual impresiona

    • Alguien preguntó qué tal es Strix Halo. También hubo quien dijo que quiere una máquina capaz de hacer inferencia local sin cuantización
    • En NVIDIA Spark obtuvieron cifras parecidas y están probando la versión Q4_K_XL
      FP8 usó 110GB y solo permitió 16k de contexto
      Lo probaron para generación de código Rust y resultó bastante competente. Si mejora la velocidad, parece realmente utilizable
      Da la impresión de que pronto los proveedores de API van a ofrecer este modelo a bajo costo
  • Me pregunto cuál es un lugar confiable para rankings de modelos locales
    Los benchmarks me parecen demasiado manipulados, así que creo que las reseñas personales tienen más valor
    Quisiera saber si existe algún sitio que organice los mejores modelos por dominio: código, voz, imagen, resumen, música, etc.