- Qwen3-Coder logra el mejor rendimiento entre los modelos abiertos en codificación agéntica, con una arquitectura Mixture-of-Experts de 480B parámetros, 35B parámetros activos y soporte para contexto de 256K~1M tokens
- Introduce técnicas de aprendizaje por refuerzo a gran escala optimizadas para problemas reales de ingeniería de software, como Code RL y Long-Horizon RL, mejorando significativamente la tasa de éxito en ejecución y el rendimiento en diversas tareas
- Se integra con herramientas de línea de comandos y APIs como Qwen Code y Claude Code, y puede usarse de inmediato en distintos entornos de desarrollo, incluidos Node.js y APIs compatibles con OpenAI
- Gracias a un entorno e infraestructura paralelos a gran escala, puede manejar interacciones complejas requeridas en tareas reales de programación, como planificación, retroalimentación y uso de herramientas
- También adelanta experimentos y avances futuros, como más tamaños de modelo, despliegue de menor costo y la posibilidad de auto-mejora de los agentes de codificación
Qwen3-Coder
- Qwen3-Coder es un modelo de IA open source en el que se reforzaron especialmente las capacidades agénticas (agentic) entre los modelos existentes de generación de código
- La primera versión principal publicada, Qwen3-Coder-480B-A35B-Instruct, aplica una arquitectura Mixture-of-Experts en la que se activan 35 mil millones de parámetros de un total de 480 mil millones
- Soporta de forma nativa un contexto de 256K tokens y puede ampliarse hasta 1M tokens
- Con un rendimiento sobresaliente, mostró resultados de nivel líder entre los modelos abiertos en benchmarks clave como Agentic Coding, Browser-Use y Tool-Use, además de una calidad en tareas de código/agente comparable con Claude Sonnet 4
- La herramienta CLI Qwen Code, publicada junto con el modelo, fue bifurcada tomando como base Gemini Code e incorpora prompts especiales y un protocolo de llamadas a funciones para aprovechar al máximo las capacidades agénticas de Qwen3-Coder
- Qwen3-Coder también puede integrarse sin fricción con diversas herramientas de desarrollo de la comunidad, como OpenAI SDK y Claude Code
- Su objetivo es materializar la codificación agéntica en todo el mundo del software como un modelo base de propósito general
Preentrenamiento (Pre-Training)
- Escalado masivo de tokens: se usaron 7.5 billones de tokens en total (70% de código), reforzando de forma equilibrada tanto la capacidad de programación como las habilidades generales y matemáticas
- Ampliación del rango de contexto: con 256K por defecto y soporte de 1M tokens basado en YaRN, puede procesar incluso datos dinámicos al nivel de grandes repositorios, como Pull Requests
- Mejora de la calidad de datos sintéticos: se elevó considerablemente la calidad general de los datos mediante el uso de datos depurados de ruido y reescritos a partir de Qwen2.5-Coder
Postentrenamiento (Post-Training)
-
Escalado del aprendizaje por refuerzo para código (Code RL): difícil de resolver, fácil de verificar
- A diferencia del enfoque centrado en competencias de la comunidad de generación de código, adopta un método en el que todas las tareas de programación se ejecutan y verifican con aprendizaje por refuerzo (RL) a gran escala
- Se ampliaron los casos de prueba automatizados para diversas tareas reales de programación, generando masivamente instancias de entrenamiento para RL y maximizando la tasa de éxito
- Este enfoque mostró resultados en los que no solo mejora la tasa de éxito de ejecución del código, sino también el rendimiento en otras tareas
- En adelante, seguirá prestando atención a nuevas áreas que sean difíciles de resolver pero fáciles de verificar
-
Aprendizaje por refuerzo de largo horizonte (Long-Horizon RL)
- En tareas reales de ingeniería de software como SWE-Bench, son indispensables las interacciones multivuelta que implican planificación, uso de herramientas, procesamiento de retroalimentación y toma de decisiones
- Qwen3-Coder incorpora Long-Horizon RL (Agent RL) y fue entrenado para resolver tareas de múltiples turnos interactuando con herramientas en entornos reales
- Con infraestructura de Alibaba Cloud, se construyeron 20,000 entornos paralelos independientes, dando soporte tanto a aprendizaje por refuerzo a gran escala como a evaluación en tiempo real
- Alcanzó el mejor rendimiento entre los modelos open source en el benchmark SWE-Bench Verified
Cómo usar Qwen3-Coder
-
Qwen Code: codificación agéntica en línea de comandos
- Qwen Code es una herramienta CLI creada con fines de investigación que, basada en Gemini CLI, añade un parser y herramientas específicas para Qwen-Coder
- Requiere un entorno Node.js 20+ y puede instalarse y ejecutarse fácilmente mediante npm
- Soporta el protocolo de OpenAI SDK, por lo que puede configurarse mediante variables de entorno o un archivo .env para usarse en diversas infraestructuras de LLM
- Con el comando Qwen-Code se puede aprovechar fácilmente la potencia de Qwen3-Coder
-
Integración con Claude Code
- Qwen3-Coder también puede utilizarse en el entorno de Claude Code
- Es posible emitir una API key en Alibaba Cloud Model Studio e instalar la integración con Claude Code
- Ofrece soporte para seleccionar varios modelos backend y una configuración sencilla mediante Proxy API y el paquete claude-code-config
-
Integración con Cline
- También puede configurarse y usarse el modelo Qwen3-Coder-480B-A35B-Instruct en el entorno de desarrollo Cline
- Como API Provider se debe seleccionar OpenAI Compatible, e ingresar la API Key recibida de Dashscope junto con el Custom Base URL
Casos de uso (Use Cases)
- Simulación física de demolición de chimeneas
- Ejemplo de uso integrado de Qwen + Cline
- Desarrollo web basado en Qwen Chat
- Medición de velocidad de escritura usando citas famosas
- Simulación de una pelota rebotando dentro de un hipercubo rotatorio
- Simulación del entorno del sistema solar
- Generación del juego DUET, entre otros diversos casos de codificación y simulación
Integración de API
- A través de Alibaba Cloud Model Studio se puede usar directamente la API de Qwen3-Coder
- Se demuestra la generación de código basada en conversación con la API de Qwen usando el OpenAI SDK de Python
Dirección futura del desarrollo
- Se está investigando activamente para mejorar el rendimiento de los Coding Agent y delegar tareas complejas y repetitivas de ingeniería de software
- Se prepara el lanzamiento de más tamaños de modelo, al mismo tiempo que se busca reducir los costos de despliegue
- Se apunta a maximizar la productividad humana en tareas complejas y repetitivas de ingeniería de software, incluyendo la posibilidad de auto-mejora de los Coding Agent
1 comentarios
Opiniones de Hacker News
Ahora mismo estoy generando GGUFs de 2bit a 8bit para poder usarlo localmente
Estarán disponibles en aproximadamente una hora en HuggingFace Unsloth Qwen3-Coder-480B-A35B-Instruct-GGUF
La documentación para ejecutarlo con una GPU de 24GB y 128~256GB de RAM está aquí
En lugar de "Recommended context: 65,536 tokens (can be increased)", la documentación oficial indica sobre la longitud de salida: "We recommend using an output length of 65,536 tokens for most queries, which is adequate for instruct models"
O sea, es la longitud de salida recomendada
Qwen3-Coder está saliendo en varios tamaños, pero personalmente lo que más espero son los modelos pequeños
Creo que los modelos ligeros que se pueden correr localmente están mejorando cada vez más en escribir buen código
Puede que por un tiempo todavía hagan falta modelos más grandes, pero está bueno poder elegir modelos de pesos abiertos y de alta calidad cuando alojarlos uno mismo no es realista
También es una buena experiencia poder usar libremente modelos pequeños y, cuando haga falta, probar modelos más grandes pagando
Felicidades al equipo de Qwen por este lanzamiento; lo voy a probar de inmediato
Los modelos grandes terminan teniendo mucho más conocimiento y siendo más inteligentes
Los modelos pequeños mejoran, sí, pero los grandes también
Hubo un tiempo en que HN era el centro técnico del mundo LLM, pero últimamente en Reddit hay más usuarios corriendo directamente modelos gigantes
Si uno investiga y lo intenta, el self-hosting sí puede ser bastante realista
La app "qwen-code" parece una versión fork de gemini-cli
QwenLM/qwen-code
Licencia
Ojalá que algún día todos estos clones OSS de CC (open source code companions) converjan en un solo estándar
De hecho, en la página lo dicen explícitamente: "we’re also open-sourcing a command-line tool for agentic coding: Qwen Code. Forked from Gemini Code"
Yo ahora uso principalmente claude-code, pero delego el razonamiento pesado a openai y gemini pro por medio de zen mcp
gemini-cli también está soportado por zen, así que podría usarlo en su lugar; y si qwen-coder está basado en gemini-cli, agregar soporte probablemente no sería nada difícil
Nosotros ya lanzamos RA.Aid a finales del '24
Es un proyecto orientado realmente a la comunidad open source y CLI-first, que va un paso más allá de la dirección que inició aider
Tenemos 5 maintainers principales independientes de distintas entidades legales con permisos completos de commit (uno incluso se unió a Gobii, donde estoy yo, y está desarrollando un agente de navegación web)
Creemos que puede competir perfectamente con Cursor, Windsurf y otras soluciones de agentic coding
De verdad hace falta un estándar basado en FOSS que no dependa de una gran empresa o de un modelo específico
Entiendo que también soporta Claude Code, pero como eso es closed source y solo soporta endpoints de la API de Anthropic, me da curiosidad cómo funciona exactamente
También quiero mencionar mi proyecto Plandex
Empezó antes que Claude Code y, además de soportar combinaciones de modelos de varios proveedores (Anthropic, Google, OpenAI), también puede aprovechar modelos open source y locales
Está especialmente enfocado en contextos grandes y tareas largas con muchos pasos
plandex-ai/plandex GitHub
Hay una propuesta para agregar
QWEN.mdal repositorio como guía del agentePero últimamente en los repositorios de equipo se está volviendo ineficiente tener archivos Markdown duplicados para cada agente
Como toda la explicación es la misma, no hace falta tener una aparte para cada modelo
Y además excluyo las versiones por modelo con gitignore
Me pregunto cómo se supone que uno debe seguir el ritmo de todos estos cambios
Dan ganas de pensar que en 2 o 3 años va a haber una sola herramienta ganadora
Para entonces, parecería que todo el mundo la usaría sin dudar
La gente naturalmente se mantiene al día con lo que le interesa
El fin de semana probé Kimi K2, en los últimos dos días corrí Ernie4.5-300B
Hoy en la mañana descargué el último Qwen3-235b y esta noche empiezo a usarlo
Esta noche también estoy bajando Qwen3-Coder-480B; con la velocidad de mi internet, me tomará 2 o 3 días
¿Será obsesión?
Simplemente ignóralo hasta que parezca útil
Sinceramente, no es como si hicieran falta 3 años de experiencia para escribir texto en una caja de prompt, así que no vale la pena preocuparse tanto
También se puede simplemente no prestarle atención
Salvo que reviente algún tema como la rentabilidad, en algún momento va a aparecer una herramienta que claramente se vuelva dominante
¿Por qué piensas eso?
Este campo tiene leaderboards muy inestables, y no hay señales de que esa inestabilidad vaya a desaparecer pronto
Creo que dentro de 2 o 3 años la situación será parecida y solo cambiarán un poco los jugadores
Me pregunto qué tanto hardware hará falta para correr Qwen3-Coder-480B-A35B-Instruct
Si su rendimiento se acerca a Sonnet, creo que muchos usuarios de Claude Code podrían interesarse en correrlo localmente
También me pregunto si compartir una instancia local entre un equipo realmente saldría rentable
Incluso hay documentación sobre cómo usarlo junto con Claude Code
En X (Twitter) también es común ver casos de facturas de uso enormes compartidas por la gente
Ahora mismo estoy preparando una versión con cuantización GGUF dinámica para modelos de deep learning
Parece que se podrá correr en 2bit dinámico con aproximadamente 24GB de VRAM + 128GB de RAM, y planeo publicarlo dentro de una hora
Documentación de referencia: docs.unsloth.ai/basics/qwen3-coder
La versión de 4bit usa alrededor de 272GB de RAM en una Mac Studio M3 de 512GB
Enlace de descarga
Video de funcionamiento real: video en X
Esa máquina cuesta unos 10,000 dólares
Para benchmarks con la versión sin cuantizar y sin destilar, parece que haría falta un clúster de unas 8 H200
Las B200 más nuevas son más rápidas, pero muchísimo más caras
Se estima más de 300,000 dólares
Cuando la gente publica versiones cuantizadas o destiladas, muchas veces no muestra los resultados de benchmark
Solo en RAM ya se necesitan más de 500GB y, si consideras el contexto, hace falta margen adicional de 100~200GB
En combinación con una GPU de 24GB, estimo una velocidad de unas 10 tokens por segundo
Tampoco hace falta obligatoriamente un equipo monstruoso
Una combinación de RTX Pro 6000 y 256GB de RAM sería suficiente
Es interesante ver un modelo de pesos abiertos compitiendo con Cloud 4
Al ser una arquitectura MoE, parece que de verdad hay posibilidad de correrlo localmente
Uno se pregunta dónde se supone que vas a meter 480GB para obtener ese rendimiento
¿De verdad tienes tanta RAM?
Tengo muchísimas ganas de ver qué tal sale Coder
Me da gusto ver que en benchmarks importantes recientes todos están usando OpenHands(All-Hands-AI/OpenHands) como scaffold base
No hay nada más frustrante que cuando en benchmarks públicos solo aparece un "private scaffold"
Hay un video de YouTube donde robert habla en detalle sobre AllHands
Es increíble lo incompetente que puede verse Cognition
Recibieron millones de dólares de inversión, quedaron por detrás de Cursor y Claude Code, y ahora hasta su propio clon (antes llamado OpenDevin) les está quitando mercado
Confirmé que ya está disponible para usarse directamente desde OpenRouter (openrouter.ai/qwen/qwen3-coder)
Ojalá alguien hiciera una CLI para esto en Rust/Ratatui