- Qwen3-Coder-Next es un modelo de lenguaje de pesos abiertos diseñado para agentes de programación y entornos de desarrollo locales, basado en una arquitectura de atención híbrida y MoE
- Fue entrenado mediante síntesis de tareas ejecutables a gran escala, interacción con el entorno y aprendizaje por refuerzo, por lo que ofrece sólidas capacidades de programación y de agente incluso con un bajo costo de inferencia
- En lugar de centrarse solo en ampliar parámetros, pone el foco en la ampliación de las señales de entrenamiento del agente, aprovechando tareas de programación verificables y entornos ejecutables para aprender directamente de la retroalimentación
- Supera el 70% en SWE-Bench Verified y muestra un rendimiento competitivo frente a modelos grandes también en SWE-Bench Pro y en entornos multilingües
- A pesar de ser un modelo pequeño, logra un equilibrio de Pareto entre eficiencia y rendimiento, lo que tiene implicaciones importantes para el despliegue rentable de agentes
Resumen de Qwen3-Coder-Next
- Qwen3-Coder-Next es un modelo de lenguaje de pesos abiertos basado en Qwen3-Next-80B-A3B-Base
- Adopta una arquitectura de atención híbrida y Mixture of Experts (MoE)
- Fue entrenado mediante síntesis de tareas ejecutables a gran escala, interacción con el entorno y aprendizaje por refuerzo
- Su objetivo es el uso eficiente en agentes de programación y entornos de desarrollo locales
- Ofrece sólidas capacidades de razonamiento y rendimiento de programación incluso con un bajo costo de inferencia
Enfoque de ampliación del entrenamiento de agentes
- El modelo se enfoca más en la ampliación de las señales de entrenamiento del agente que en la ampliación del número de parámetros
- Combina tareas de programación verificables con entornos ejecutables para aprender directamente de la retroalimentación del entorno
- Etapas principales del entrenamiento
- Preentrenamiento continuo con datos centrados en código y agentes
- Ajuste fino supervisado utilizando datos de trayectorias de agentes de alta calidad
- Entrenamiento especializado por dominio en ingeniería de software, QA y web/UX, entre otros
- Destilación de varios modelos expertos en un único modelo desplegable
- Este enfoque refuerza las capacidades de razonamiento a largo plazo, uso de herramientas y recuperación ante fallos de ejecución
Rendimiento en benchmarks de agentes de programación
- Fue evaluado en varios benchmarks, como SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0 y Aider
- Supera el 70% en SWE-Bench Verified
- Mantiene competitividad también en SWE-Bench Pro y en entornos multilingües
- A pesar de tener un número reducido de parámetros activos, iguala o supera a modelos open source más grandes
- En tareas de agentes de múltiples turnos, se confirmó que al aumentar el número de turnos del agente se fortalecen las capacidades de razonamiento a largo plazo
Equilibrio entre eficiencia y rendimiento
- Qwen3-Coder-Next (3B active) logra un rendimiento en SWE-Bench-Pro similar al de modelos entre 10 y 20 veces más grandes
- Aunque los modelos propietarios basados en atención completa lideran en rendimiento absoluto, Qwen3-Coder-Next se sitúa en una frontera de Pareto superior en términos de eficiencia por costo
- Esto muestra que es un modelo adecuado para el despliegue rentable de agentes
Demostraciones y ejemplos de aplicación
- Como modelo coder pequeño y rápido, puede integrarse en diversos entornos de aplicación
- Fue demostrado en OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use y Cline, entre otros
- Puede usarse vía web a través de coder.qwen.ai
Resumen y planes futuros
- Qwen3-Coder-Next demostró excelente velocidad y capacidad de razonamiento en benchmarks de agentes de programación
- Aunque muestra un rendimiento competitivo incluso frente a grandes modelos open source, todavía hay margen de mejora
- En el futuro, planean reforzar las capacidades de uso de herramientas, resolución de problemas complejos y toma de decisiones
- Además de ampliar el soporte para más tareas y realizar actualizaciones rápidas basadas en la retroalimentación de los usuarios
1 comentarios
Comentarios en Hacker News
Este modelo GGUF pesa 48.4GB, así que puede ejecutarse incluso en una laptop de gama alta
Hasta ahora no había visto un modelo local que realmente pudiera correr un agente de programación al nivel de Codex CLI o Claude Code en mi MacBook Pro de 64GB
Me pregunto si esta vez será diferente. La guía de Unsloth hace pensar que sí podría ser posible
Decir simplemente “local” porque está conectado con llama.cpp en la misma máquina se queda corto. Cuando yo digo local, me refiero a un modelo LAN, es decir, algo que pueda hacer inferencia “gratis” en hardware que yo controlo directamente
Por ejemplo, una configuración con 5090 + Threadripper + 256GB RAM cuesta alrededor de 10 mil dólares, y la ruta con MLX ronda los 6 mil dólares
La arquitectura interna del modelo y el método de cuantización afectan mucho el uso real de memoria, así que comparar solo por cantidad de parámetros cada vez tiene menos sentido
Por eso creo que hace falta un sistema para hacer benchmarks de tareas reales como tool calling, generación de código y procesamiento de documentos sobre una base de hardware estandarizada
Incluso en una laptop Razer Blade vieja funciona con bastante estabilidad hasta 64k de contexto
Para proyectos pequeños, corrección de bugs o mejoras de UI, sirve bastante bien
Aun así, creo que el criterio de qué es “usable” cambia según la persona. La evaluación también depende del tipo de tarea que hayas intentado
Reunir buenos logs de ejecución del modelo 120b y hacer fine-tuning de una versión 20b podría resultar bastante útil
Si subes
reasoning_effortda resultados bastante decentes, pero por el límite de 64GB de memoria, mejorar el 20b parece lo más realistaollama run glm-4.7-flash) y lo corrí en una Mac mini M2 Pro de 32GBPara ordenar código de proyectos git antiguos, documentar y agregar tests, fue totalmente utilizable
Tal vez mis estándares sean bajos, pero como asistente local para programar me dejó bastante satisfecho
Si sigue creciendo la producción de GPU y memoria, y los modelos se siguen optimizando, incluso hardware de gama media podría ofrecer un rendimiento suficientemente bueno
Subí el Dynamic Unsloth GGUF para despliegue local a Hugging Face,
y también escribí una guía para usar Claude Code / Codex en local
Corrí el servidor de llama.cpp en un entorno basado en Radeon RX 7900 XTX, y funcionó de forma estable con la configuración ctx-size 32768
También preguntaron por qué convendría usar la versión de Unsloth en lugar del GGUF base de Qwen3
Instalé llama.cpp con Homebrew y ejecuté en local un modelo cuantizado de Unsloth
Pude levantar al mismo tiempo la interfaz CLI y un servidor API compatible con OpenAI, usando alrededor de 28GB de RAM
token/s)Si este modelo realmente cumple lo que promete, que entregue rendimiento de programación al nivel de Sonnet 4.5 con 3B de parámetros activos sería algo enorme
Incluso en problemas simples había errores, y a veces caía en un thinking loop
Puede que sea un bug de implementación inicial, pero por ahora la afirmación de rendimiento me parece exagerada
Probé Qwen3 Coder 30B en una Mac M4 Max (36GB) de forma local
Era lento, pero funcionó y dio resultados bastante buenos
Comparto un video de demostración y un blog con la configuración
En una laptop con 6GB de VRAM obtuve 17 tok/s, y fue posible llegar hasta 100k de contexto
Es impresionante, pero al final sigue siendo lento, así que probablemente voy a seguir usando inferencia en la nube
Comparto un [ejemplo de configuración de docker-compose]
Hice benchmarks del modelo FP8 en un entorno con DGX Spark + vLLM 0.15.1
Con una sola solicitud da unos 43 tok/s, y con solicitudes en paralelo llega hasta 62 tok/s
La versión cuantizada a 4-bit de llama.cpp da unos 30~35 tok/s, y usa solo 50GB de RAM incluso con 200k de contexto
Con 3B de parámetros activos rinde un poco por debajo de GLM 4.7, pero la eficiencia es sorprendente
Creo que si se usa este agente de programación rápido pero simple junto con un orquestador, la velocidad total podría ser incluso mejor
Automatiza tareas repetitivas como escaneo de código, búsqueda de librerías y exploración de SourceGraph
Gracias a la función de Workspace de Mastra, ahora es posible un desarrollo con agentes mucho más potente
Probé lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0 en Strix Halo,
y dio 32 tok/s con hasta 128k de contexto. Es un poco más débil que MiniMax M2.1 Q6, pero igual impresiona
FP8 usó 110GB y solo permitió 16k de contexto
Lo probaron para generación de código Rust y resultó bastante competente. Si mejora la velocidad, parece realmente utilizable
Da la impresión de que pronto los proveedores de API van a ofrecer este modelo a bajo costo
Me pregunto cuál es un lugar confiable para rankings de modelos locales
Los benchmarks me parecen demasiado manipulados, así que creo que las reseñas personales tienen más valor
Quisiera saber si existe algún sitio que organice los mejores modelos por dominio: código, voz, imagen, resumen, música, etc.