Lanzamiento de Qwen3-Coder: un innovador modelo de código agéntico

(qwenlm.github.io)

3 puntos por GN⁺ 2025-07-23 | 1 comentarios | Compartir por WhatsApp

Qwen3-Coder logra el mejor rendimiento entre los modelos abiertos en codificación agéntica, con una arquitectura Mixture-of-Experts de 480B parámetros, 35B parámetros activos y soporte para contexto de 256K~1M tokens
Introduce técnicas de aprendizaje por refuerzo a gran escala optimizadas para problemas reales de ingeniería de software, como Code RL y Long-Horizon RL, mejorando significativamente la tasa de éxito en ejecución y el rendimiento en diversas tareas
Se integra con herramientas de línea de comandos y APIs como Qwen Code y Claude Code, y puede usarse de inmediato en distintos entornos de desarrollo, incluidos Node.js y APIs compatibles con OpenAI
Gracias a un entorno e infraestructura paralelos a gran escala, puede manejar interacciones complejas requeridas en tareas reales de programación, como planificación, retroalimentación y uso de herramientas
También adelanta experimentos y avances futuros, como más tamaños de modelo, despliegue de menor costo y la posibilidad de auto-mejora de los agentes de codificación

Qwen3-Coder

Qwen3-Coder es un modelo de IA open source en el que se reforzaron especialmente las capacidades agénticas (agentic) entre los modelos existentes de generación de código
La primera versión principal publicada, Qwen3-Coder-480B-A35B-Instruct, aplica una arquitectura Mixture-of-Experts en la que se activan 35 mil millones de parámetros de un total de 480 mil millones
- Soporta de forma nativa un contexto de 256K tokens y puede ampliarse hasta 1M tokens
Con un rendimiento sobresaliente, mostró resultados de nivel líder entre los modelos abiertos en benchmarks clave como Agentic Coding, Browser-Use y Tool-Use, además de una calidad en tareas de código/agente comparable con Claude Sonnet 4

La herramienta CLI Qwen Code, publicada junto con el modelo, fue bifurcada tomando como base Gemini Code e incorpora prompts especiales y un protocolo de llamadas a funciones para aprovechar al máximo las capacidades agénticas de Qwen3-Coder
Qwen3-Coder también puede integrarse sin fricción con diversas herramientas de desarrollo de la comunidad, como OpenAI SDK y Claude Code
Su objetivo es materializar la codificación agéntica en todo el mundo del software como un modelo base de propósito general

Preentrenamiento (Pre-Training)

Escalado masivo de tokens: se usaron 7.5 billones de tokens en total (70% de código), reforzando de forma equilibrada tanto la capacidad de programación como las habilidades generales y matemáticas
Ampliación del rango de contexto: con 256K por defecto y soporte de 1M tokens basado en YaRN, puede procesar incluso datos dinámicos al nivel de grandes repositorios, como Pull Requests
Mejora de la calidad de datos sintéticos: se elevó considerablemente la calidad general de los datos mediante el uso de datos depurados de ruido y reescritos a partir de Qwen2.5-Coder

Postentrenamiento (Post-Training)

Escalado del aprendizaje por refuerzo para código (Code RL): difícil de resolver, fácil de verificar
- A diferencia del enfoque centrado en competencias de la comunidad de generación de código, adopta un método en el que todas las tareas de programación se ejecutan y verifican con aprendizaje por refuerzo (RL) a gran escala
- Se ampliaron los casos de prueba automatizados para diversas tareas reales de programación, generando masivamente instancias de entrenamiento para RL y maximizando la tasa de éxito
- Este enfoque mostró resultados en los que no solo mejora la tasa de éxito de ejecución del código, sino también el rendimiento en otras tareas
- En adelante, seguirá prestando atención a nuevas áreas que sean difíciles de resolver pero fáciles de verificar
Aprendizaje por refuerzo de largo horizonte (Long-Horizon RL)
- En tareas reales de ingeniería de software como SWE-Bench, son indispensables las interacciones multivuelta que implican planificación, uso de herramientas, procesamiento de retroalimentación y toma de decisiones
- Qwen3-Coder incorpora Long-Horizon RL (Agent RL) y fue entrenado para resolver tareas de múltiples turnos interactuando con herramientas en entornos reales
- Con infraestructura de Alibaba Cloud, se construyeron 20,000 entornos paralelos independientes, dando soporte tanto a aprendizaje por refuerzo a gran escala como a evaluación en tiempo real
- Alcanzó el mejor rendimiento entre los modelos open source en el benchmark SWE-Bench Verified

Cómo usar Qwen3-Coder

Qwen Code: codificación agéntica en línea de comandos
- Qwen Code es una herramienta CLI creada con fines de investigación que, basada en Gemini CLI, añade un parser y herramientas específicas para Qwen-Coder
- Requiere un entorno Node.js 20+ y puede instalarse y ejecutarse fácilmente mediante npm
- Soporta el protocolo de OpenAI SDK, por lo que puede configurarse mediante variables de entorno o un archivo .env para usarse en diversas infraestructuras de LLM
- Con el comando Qwen-Code se puede aprovechar fácilmente la potencia de Qwen3-Coder
Integración con Claude Code
- Qwen3-Coder también puede utilizarse en el entorno de Claude Code
- Es posible emitir una API key en Alibaba Cloud Model Studio e instalar la integración con Claude Code
- Ofrece soporte para seleccionar varios modelos backend y una configuración sencilla mediante Proxy API y el paquete claude-code-config
Integración con Cline
- También puede configurarse y usarse el modelo Qwen3-Coder-480B-A35B-Instruct en el entorno de desarrollo Cline
- Como API Provider se debe seleccionar OpenAI Compatible, e ingresar la API Key recibida de Dashscope junto con el Custom Base URL

Casos de uso (Use Cases)

Simulación física de demolición de chimeneas
Ejemplo de uso integrado de Qwen + Cline
Desarrollo web basado en Qwen Chat
Medición de velocidad de escritura usando citas famosas
Simulación de una pelota rebotando dentro de un hipercubo rotatorio
Simulación del entorno del sistema solar
Generación del juego DUET, entre otros diversos casos de codificación y simulación

Integración de API

A través de Alibaba Cloud Model Studio se puede usar directamente la API de Qwen3-Coder
Se demuestra la generación de código basada en conversación con la API de Qwen usando el OpenAI SDK de Python

Dirección futura del desarrollo

Se está investigando activamente para mejorar el rendimiento de los Coding Agent y delegar tareas complejas y repetitivas de ingeniería de software
Se prepara el lanzamiento de más tamaños de modelo, al mismo tiempo que se busca reducir los costos de despliegue
Se apunta a maximizar la productividad humana en tareas complejas y repetitivas de ingeniería de software, incluyendo la posibilidad de auto-mejora de los Coding Agent

1 comentarios

GN⁺ 2025-07-23

Opiniones de Hacker News

Ahora mismo estoy generando GGUFs de 2bit a 8bit para poder usarlo localmente
Estarán disponibles en aproximadamente una hora en HuggingFace Unsloth Qwen3-Coder-480B-A35B-Instruct-GGUF
La documentación para ejecutarlo con una GPU de 24GB y 128~256GB de RAM está aquí
- Parece que hay un error tipográfico en la documentación
  En lugar de "Recommended context: 65,536 tokens (can be increased)", la documentación oficial indica sobre la longitud de salida: "We recommend using an output length of 65,536 tokens for most queries, which is adequate for instruct models"
  O sea, es la longitud de salida recomendada
Qwen3-Coder está saliendo en varios tamaños, pero personalmente lo que más espero son los modelos pequeños
Creo que los modelos ligeros que se pueden correr localmente están mejorando cada vez más en escribir buen código
Puede que por un tiempo todavía hagan falta modelos más grandes, pero está bueno poder elegir modelos de pesos abiertos y de alta calidad cuando alojarlos uno mismo no es realista
También es una buena experiencia poder usar libremente modelos pequeños y, cuando haga falta, probar modelos más grandes pagando
Felicidades al equipo de Qwen por este lanzamiento; lo voy a probar de inmediato
- No creo que en la práctica los modelos pequeños superen a los grandes muy seguido
  Los modelos grandes terminan teniendo mucho más conocimiento y siendo más inteligentes
  Los modelos pequeños mejoran, sí, pero los grandes también
  Hubo un tiempo en que HN era el centro técnico del mundo LLM, pero últimamente en Reddit hay más usuarios corriendo directamente modelos gigantes
  Si uno investiga y lo intenta, el self-hosting sí puede ser bastante realista
La app "qwen-code" parece una versión fork de gemini-cli
QwenLM/qwen-code
Licencia
Ojalá que algún día todos estos clones OSS de CC (open source code companions) converjan en un solo estándar
De hecho, en la página lo dicen explícitamente: "we’re also open-sourcing a command-line tool for agentic coding: Qwen Code. Forked from Gemini Code"
- Yo ahora uso principalmente claude-code, pero delego el razonamiento pesado a openai y gemini pro por medio de zen mcp
  gemini-cli también está soportado por zen, así que podría usarlo en su lugar; y si qwen-coder está basado en gemini-cli, agregar soporte probablemente no sería nada difícil
- Nosotros ya lanzamos RA.Aid a finales del '24
  Es un proyecto orientado realmente a la comunidad open source y CLI-first, que va un paso más allá de la dirección que inició aider
  Tenemos 5 maintainers principales independientes de distintas entidades legales con permisos completos de commit (uno incluso se unió a Gobii, donde estoy yo, y está desarrollando un agente de navegación web)
  Creemos que puede competir perfectamente con Cursor, Windsurf y otras soluciones de agentic coding
  De verdad hace falta un estándar basado en FOSS que no dependa de una gran empresa o de un modelo específico
- Entiendo que también soporta Claude Code, pero como eso es closed source y solo soporta endpoints de la API de Anthropic, me da curiosidad cómo funciona exactamente
- También quiero mencionar mi proyecto Plandex
  Empezó antes que Claude Code y, además de soportar combinaciones de modelos de varios proveedores (Anthropic, Google, OpenAI), también puede aprovechar modelos open source y locales
  Está especialmente enfocado en contextos grandes y tareas largas con muchos pasos
  plandex-ai/plandex GitHub
Hay una propuesta para agregar QWEN.md al repositorio como guía del agente
Pero últimamente en los repositorios de equipo se está volviendo ineficiente tener archivos Markdown duplicados para cada agente
- Yo simplemente agrego enlaces simbólicos a AGENTS.md
  Como toda la explicación es la misma, no hace falta tener una aparte para cada modelo
  Y además excluyo las versiones por modelo con gitignore
Me pregunto cómo se supone que uno debe seguir el ritmo de todos estos cambios
Dan ganas de pensar que en 2 o 3 años va a haber una sola herramienta ganadora
Para entonces, parecería que todo el mundo la usaría sin dudar
- La gente naturalmente se mantiene al día con lo que le interesa
  El fin de semana probé Kimi K2, en los últimos dos días corrí Ernie4.5-300B
  Hoy en la mañana descargué el último Qwen3-235b y esta noche empiezo a usarlo
  Esta noche también estoy bajando Qwen3-Coder-480B; con la velocidad de mi internet, me tomará 2 o 3 días
  ¿Será obsesión?
- Simplemente ignóralo hasta que parezca útil
  Sinceramente, no es como si hicieran falta 3 años de experiencia para escribir texto en una caja de prompt, así que no vale la pena preocuparse tanto
- También se puede simplemente no prestarle atención
  Salvo que reviente algún tema como la rentabilidad, en algún momento va a aparecer una herramienta que claramente se vuelva dominante
- ¿Por qué piensas eso?
  Este campo tiene leaderboards muy inestables, y no hay señales de que esa inestabilidad vaya a desaparecer pronto
  Creo que dentro de 2 o 3 años la situación será parecida y solo cambiarán un poco los jugadores
Me pregunto qué tanto hardware hará falta para correr Qwen3-Coder-480B-A35B-Instruct
Si su rendimiento se acerca a Sonnet, creo que muchos usuarios de Claude Code podrían interesarse en correrlo localmente
También me pregunto si compartir una instancia local entre un equipo realmente saldría rentable
Incluso hay documentación sobre cómo usarlo junto con Claude Code
En X (Twitter) también es común ver casos de facturas de uso enormes compartidas por la gente
- Ahora mismo estoy preparando una versión con cuantización GGUF dinámica para modelos de deep learning
  Parece que se podrá correr en 2bit dinámico con aproximadamente 24GB de VRAM + 128GB de RAM, y planeo publicarlo dentro de una hora
  Documentación de referencia: docs.unsloth.ai/basics/qwen3-coder
- La versión de 4bit usa alrededor de 272GB de RAM en una Mac Studio M3 de 512GB
  Enlace de descarga
  Video de funcionamiento real: video en X
  Esa máquina cuesta unos 10,000 dólares
- Para benchmarks con la versión sin cuantizar y sin destilar, parece que haría falta un clúster de unas 8 H200
  Las B200 más nuevas son más rápidas, pero muchísimo más caras
  Se estima más de 300,000 dólares
  Cuando la gente publica versiones cuantizadas o destiladas, muchas veces no muestra los resultados de benchmark
- Solo en RAM ya se necesitan más de 500GB y, si consideras el contexto, hace falta margen adicional de 100~200GB
  En combinación con una GPU de 24GB, estimo una velocidad de unas 10 tokens por segundo
- Tampoco hace falta obligatoriamente un equipo monstruoso
  Una combinación de RTX Pro 6000 y 256GB de RAM sería suficiente
Es interesante ver un modelo de pesos abiertos compitiendo con Cloud 4
Al ser una arquitectura MoE, parece que de verdad hay posibilidad de correrlo localmente
- Uno se pregunta dónde se supone que vas a meter 480GB para obtener ese rendimiento
  ¿De verdad tienes tanta RAM?
- Tengo muchísimas ganas de ver qué tal sale Coder
Me da gusto ver que en benchmarks importantes recientes todos están usando OpenHands(All-Hands-AI/OpenHands) como scaffold base
No hay nada más frustrante que cuando en benchmarks públicos solo aparece un "private scaffold"
- Hay un video de YouTube donde robert habla en detalle sobre AllHands
- Es increíble lo incompetente que puede verse Cognition
  Recibieron millones de dólares de inversión, quedaron por detrás de Cursor y Claude Code, y ahora hasta su propio clon (antes llamado OpenDevin) les está quitando mercado
Confirmé que ya está disponible para usarse directamente desde OpenRouter (openrouter.ai/qwen/qwen3-coder)
Ojalá alguien hiciera una CLI para esto en Rust/Ratatui

Lanzamiento de Qwen3-Coder: un innovador modelo de código agéntico

Qwen3-Coder

Preentrenamiento (Pre-Training)

Postentrenamiento (Post-Training)

Escalado del aprendizaje por refuerzo para código (Code RL): difícil de resolver, fácil de verificar

Aprendizaje por refuerzo de largo horizonte (Long-Horizon RL)

Cómo usar Qwen3-Coder

Qwen Code: codificación agéntica en línea de comandos

Integración con Claude Code

Integración con Cline

Casos de uso (Use Cases)

Integración de API

Dirección futura del desarrollo

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News