Qwen3.6-35B-A3B: rendimiento de codificación agéntica, ahora abierto para todos

(qwen.ai)

4 puntos por GN⁺ 14 일 전 | 1 comentarios | Compartir por WhatsApp

Es un modelo de código abierto con una arquitectura sparse Mixture-of-Experts (MoE) en la que solo se activan 3 mil millones de parámetros de un total de 35 mil millones, logrando eficiencia y rendimiento al mismo tiempo
Frente a la generación anterior, su capacidad de codificación agéntica mejoró de forma notable, alcanzando un nivel capaz de competir con grandes modelos densos como Qwen3.5-27B o Gemma4-31B
Registró puntajes altos en los principales benchmarks de codificación como SWE-bench, Terminal-Bench y Claw-Eval, y también alcanzó un rendimiento al nivel de Claude Sonnet 4.5 en tareas multimodales
Ofrece pesos abiertos y acceso por API a través de Alibaba Cloud Model Studio API, Hugging Face y ModelScope, además de integración con diversas herramientas de codificación como OpenClaw y Claude Code
Con 3 mil millones de parámetros activos, establece un nuevo estándar para modelos abiertos eficientes comparables a modelos grandes

Resumen de Qwen3.6-35B-A3B

Qwen3.6-35B-A3B es un modelo sparse Mixture-of-Experts (MoE) en el que solo se activan 3 mil millones de parámetros de un total de 35 mil millones, un modelo de código abierto que combina eficiencia y rendimiento
En comparación con la versión anterior, Qwen3.5-35B-A3B, mejoró de forma considerable su rendimiento en codificación agéntica (agentic coding), hasta un nivel capaz de competir con grandes modelos densos como Qwen3.5-27B o Gemma4-31B
También admite tanto razonamiento multimodal como modo sin razonamiento, y está disponible a través de Qwen Studio, API, Hugging Face y ModelScope
El modelo puede usarse de forma interactiva en Qwen Studio, llamarse mediante Alibaba Cloud Model Studio API (qwen3.6-flash) o alojarse directamente

Evaluación de rendimiento

Rendimiento en lenguaje y codificación
- Qwen3.6-35B-A3B supera a Qwen3.5-27B (modelo denso de 27 mil millones de parámetros) en varios benchmarks clave de codificación usando solo 3 mil millones de parámetros activos
- Obtuvo puntajes altos como 73.4 en SWE-bench Verified, 51.5 en Terminal-Bench y un promedio de 68.7 en Claw-Eval
- En QwenWebBench (benchmark de generación de código web) registró 1397 puntos, uno de los mejores niveles dentro de su categoría
- También mostró resultados sobresalientes frente a modelos competidores en benchmarks agénticos generales como MCPMark, MCP-Atlas y WideSearch
- Mantuvo una alta precisión también en pruebas de conocimiento y razonamiento como MMLU-Pro, GPQA y AIME26
Entorno de evaluación
- La serie SWE-Bench se evaluó en una ventana de contexto de 200K basada en un scaffold agéntico interno (herramientas bash + file-edit)
- Terminal-Bench 2.0 se evaluó con un límite de 3 horas, en un entorno de 32 CPU/48GB RAM, promediando 5 ejecuciones
- SkillsBench se evaluó en 78 tareas, excluyendo trabajos dependientes de API
- QwenClawBench y QwenWebBench son benchmarks internos basados en distribución de uso real, reflejando entornos reales de usuarios
Rendimiento visión-lenguaje
- Qwen3.6-35B-A3B es un modelo multimodal nativo que logra un rendimiento al nivel de Claude Sonnet 4.5 usando solo 3 mil millones de parámetros activos
- Mostró fortalezas en inteligencia espacial con 92.0 en RefCOCO (percepción espacial) y 50.8 en ODInW13
- Obtuvo puntajes altos en diversas tareas visión-lenguaje como RealWorldQA 85.3, MMBench EN-DEV 92.8 y OmniDocBench1.5 89.9
- También mantuvo un rendimiento estable con puntajes en el rango de 80 a 86 en benchmarks de comprensión de video como VideoMME, VideoMMMU y MLVU

Uso de Qwen3.6-35B-A3B

Despliegue y acceso
- Puede usarse mediante Alibaba Cloud Model Studio API (qwen3.6-flash), y sus pesos abiertos pueden descargarse desde Hugging Face y ModelScope
- También puede probarse de inmediato en Qwen Studio, con integración compatible con asistentes de codificación de terceros como OpenClaw, Claude Code y Qwen Code
Uso de API
- Admite la función preserve_thinking, que conserva el contenido de thinking de conversaciones anteriores, por lo que resulta adecuada para tareas agénticas
- Alibaba Cloud Model Studio ofrece una chat completions API compatible con las especificaciones de las API de OpenAI y Anthropic
- En el código de ejemplo, la opción enable_thinking permite mostrar por separado el proceso de razonamiento (reasoning trace) y la respuesta final
Integración con OpenClaw
- Qwen3.6-35B-A3B es compatible con OpenClaw (antes Moltbot/Clawdbot) y, al conectarse con Model Studio, ofrece un entorno de codificación agéntica basado en terminal
- Se utiliza fusionando la información de la API de Model Studio en el archivo de configuración (~/.openclaw/openclaw.json)
- Puede instalarse y ejecutarse en entornos con Node.js 22 o superior
Integración con Qwen Code
- Es totalmente compatible con Qwen Code (agente de IA de código abierto para terminal) optimizado para la serie Qwen
- Tras instalarlo en Node.js 20 o superior, el procedimiento de autenticación se realiza con el comando /auth
Integración con Claude Code
- Como admite el protocolo de la API de Anthropic, también puede usarse directamente en Claude Code
- Basta con establecer la variable de entorno ANTHROPIC_MODEL="qwen3.6-flash" y luego ejecutar el CLI

Resumen y perspectiva

Qwen3.6-35B-A3B demuestra que incluso con una arquitectura sparse MoE puede ofrecer capacidades de codificación agéntica y razonamiento comparables a las de grandes modelos densos
Con 3 mil millones de parámetros activos, logra tanto eficiencia como rendimiento, y también muestra resultados sobresalientes en benchmarks multimodales
Al publicarse como un checkpoint totalmente de código abierto, presenta un nuevo estándar para modelos abiertos eficientes
El equipo de Qwen planea seguir ampliando la familia de código abierto Qwen3.6 y espera la retroalimentación y el uso por parte de la comunidad

Información de cita

@misc{qwen36_35b_a3b, title = {Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All}, url = {https://qwen.ai/blog?id=qwen3.6-35b-a3b}, author = {Qwen Team}, month = {April}, year = {2026}}

1 comentarios

GN⁺ 14 일 전

Comentarios en Hacker News

Probé la versión Unsloth 20.9GB GGUF en mi laptop con LM Studio
Enlace del modelo
Sorprendentemente, dibujó un pelícano en bicicleta mejor que Opus 4.7
Vale la pena ver la publicación comparativa de Simon Willison
- Lo reproduje con el mismo modelo (M1 Max 64GB, menos de 90 segundos) — imagen del resultado
  Mi resultado tenía sol y nubes en el cielo, pasto como líneas verdes delgadas y también un efecto de sol con halo
  También había una expresión similar del “flujo de aire” como en el resultado de Simon, pero al final lo importante es el pelícano y la bicicleta
- Lo probé gracias al enlace GGUF
  Lo usé en el proyecto Shoggoth.db para tareas de exploración de wiki + construcción automática de BD
  Sentí que mejoró la capacidad de explorar criaturas nuevas frente a Qwen3.5
  La velocidad también subió a unos 140 token/s y funcionó de forma estable en una RTX 4090 sin offload de memoria
  Eso sí, tuve que usar la opción --no-mmproj-offload para evitar conflictos multimodales
- Me pregunto cuándo dejarán de ser útiles pruebas como la del “pelícano en bicicleta”
  Originalmente la idea era evaluar la creatividad del modelo con prompts raros que a nadie se le habían ocurrido, pero ahora ya se siente casi como un benchmark interno
- No entiendo por qué ganó el dibujo del flamenco de Qwen
  Está sentado sobre la llanta, la posición del pico es rara y la proporción entre los rayos de la rueda y las patas se ve extraña
  Los lentes de sol también son semitransparentes, así que solo se ve un ojo
  Está tierno, pero creo que el moño y los accesorios no solicitados más bien le restan puntos
  El resultado de Opus era menos vistoso, pero más preciso
- Mientras más veo las imágenes, más siento que el world model sigue siendo la pieza faltante del rompecabezas
  Al final, me da la impresión de que los modelos actuales no son más que generadores probabilísticos de oraciones
Me da gusto ver que el equipo de Qwen sigue publicando pesos abiertos
Noticia relacionada 1, noticia 2
Es impresionante que el proyecto siga adelante incluso después de la salida de gente clave como Junyang Lin
- Es solo uno de la serie Qwen 3.6
  Es probable que los modelos más pequeños se publiquen pronto, pero parece que el modelo principal 397A17B quedó fuera
- Personalmente, espero que publiquen los pesos abiertos de qwen-image 2.0
Unsloth ya tiene una versión con cuantización y conversión hechas
Enlace de Hugging Face
- Unsloth suele subir rápido quants experimentales, pero las versiones justo después del lanzamiento a menudo se corrigen
  Conviene revisarlo otra vez como una semana después para bajar una versión estable
  A veces un buen modelo queda subestimado por bugs iniciales
- Me pregunto por qué Qwen no publica directamente modelos quantized
  Creo que el proceso de cuantización es complejo y existe riesgo de pérdida de calidad, así que sería mejor que lo hiciera el desarrollador original
  Una versión quant mal hecha podría arruinar la reputación del modelo
- Me da curiosidad el requisito de VRAM. Quisiera saber si se puede correr incluso en una GPU de 16GB
- Quisiera entender por qué la quantization base de Qwen es mala, quién es Unsloth,
  y cuáles son las ventajas de un buen formato
  También estaría bien una explicación del concepto mismo de quantization
- Me pregunto si este modelo también se puede usar con el comando ollama run claude
Me alegra este lanzamiento del equipo de Qwen
Los modelos pequeños de código con pesos abiertos son útiles para crear agentes personalizados en industrias específicas (por ejemplo, finanzas o salud)
para equipos de desarrollo con acceso restringido a la nube
En Occidente casi nadie atiende este mercado; Mistral parece ser la única excepción
- Mistral parece ser la única empresa que persigue un modelo de negocio sostenible
  Las demás compañías de IA dan la impresión de buscar solo ganancias de corto plazo
- Los modelos abiertos pequeños son divertidos, pero están en otra liga frente a los grandes modelos alojados
  Si el trabajo es serio, hay que invertir en hardware que pueda correr modelos más grandes directamente
- Estoy de acuerdo, pero para uso industrial real estos modelos pequeños se quedan cortos
  Incluso con equipo de unos 100 mil dólares se pueden correr modelos más grandes on-premise
- Hacer modelos competidores de pesos abiertos es genial, pero cuesta demasiado
- En industrias reguladas, me pregunto cómo se puede verificar que el modelo no fue entrenado con datos maliciosos
Son interesantes las características de embedding de lenguaje de Qwen
Tuit de análisis relacionado
Según eso, a diferencia de otros modelos, Qwen está ubicado en una cuenca de distribución centrada en exámenes
Un ejecutivo de Qwen publicó en Twitter una encuesta preguntando qué modelo querían ver como open source,
y aunque la versión 27B fue la más popular, no se publicó
- Como pasó con 3.5, podría publicarse gradualmente mediante un proceso de distillation
  Como la arquitectura A3B tiene distillation rápida, quizá salga pronto
- 27B es un modelo dense, así que en marketing resulta menos atractivo que 35A3B
  Este último se siente más rápido y más “inteligente”
- Probablemente lo publiquen pronto
- Personalmente creo que la arquitectura MoE es ineficiente
  Con la misma VRAM, un modelo dense de 27B podría manejar más contexto y dar mejor calidad
He usado bastante Qwen3.5-35B-A3B en pruebas locales,
y fue el modelo más potente que ha corrido en mi equipo
En especial me impresionaron las versiones quant Mudler APEX-I-Quality y Byteshape Q3_K_S-3.40bpw
En un entorno con RTX 3060 12GB, quedó margen de memoria y la velocidad también mejoró a más de 40 t/s
- Después de probar varias tareas, Qwen3.6 es un salto mucho mayor que 3.5
  Incluso logró por sí solo mejorar proyectos donde antes se atascaba
- Me pregunto cuál versión quant es la mejor
Este tipo de lanzamientos de software de IA es lo que más espero
Sin marketing exagerado sobre riesgos, sin suscripciones, y simplemente un modelo que dan ganas de probar
- Pienso igual. Ojalá en el futuro cercano los modelos locales y el hardware mejoren lo suficiente
  como para volverse prácticos en la mayoría de los casos de uso
Me pregunto cómo usa realmente la gente estos modelos locales
Quisiera saber qué valor tienen frente a rentar tokens de Anthropic u OpenAI
- Estoy usando Qwen3.5-9B para extracción local de tablas con OCR
  Como los formatos de documento varían mucho, antes usaba un pipeline complicado basado en reglas,
  pero ahora la capacidad multimodal permite extraer combinando lenguaje + visión
- Yo uso Qwen3.5-4B junto con Frigate, un NVR FOSS
  Sirve bastante bien para análisis de video, y para resumen de texto o traducción uso modelos más grandes
  Si no es tiempo real, la calidad importa más que la velocidad, así que es ideal para procesamiento por lotes
- Yo no quiero usar para siempre el modelo de renta de tokens
  Quiero un modelo completamente privado y autohospedado
  Estoy cansado de que los servicios SaaS desaparezcan, y creo que los LLM al final también deben ir hacia el self-hosting
- Procesé por lotes millones de documentos con vLLM + qwen3-coder-next
  Pude usar el 100% de la GPU sin límites de tokens ni de velocidad
- No todas las tareas necesitan modelos SOTA
  Por ejemplo, uso Gemma 4 como traductor offline en iPhone,
  y es más rápido y preciso que Apple Translate
  Para cosas pequeñas como edición de JSON, un modelo local es mucho más eficiente

Qwen3.6-35B-A3B: rendimiento de codificación agéntica, ahora abierto para todos

Resumen de Qwen3.6-35B-A3B

Evaluación de rendimiento

Rendimiento en lenguaje y codificación

Entorno de evaluación

Rendimiento visión-lenguaje

Uso de Qwen3.6-35B-A3B

Despliegue y acceso

Uso de API

Integración con OpenClaw

Integración con Qwen Code

Integración con Claude Code

Resumen y perspectiva

Información de cita

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News