Es un modelo de lenguaje de gran escala que el equipo Qwen de Alibaba publicó como open source en abril de 2026. Usa una arquitectura MoE (Mixture-of-Experts). MoE es un enfoque en el que el modelo contiene varias “redes expertas” internas y, cada vez que entra una entrada, solo se selecciona y activa una parte de ellas. Aunque tiene 35 mil millones de parámetros en total, durante la inferencia solo utiliza 3 mil millones, por lo que funciona con apenas alrededor del 8.6% de su capacidad total. Es un modelo multimodal que entiende no solo texto, sino también imágenes y video, y además admite tanto el modo Thinking, que muestra el proceso de razonamiento, como el modo Non-thinking, que responde directamente.
Contenido clave
- Frente a su versión anterior, Qwen3.5-35B-A3B, mejora de forma considerable en codificación agéntica (un estilo de programación autónoma en el que la IA explora archivos por sí sola, ejecuta la terminal y diagnostica y corrige errores)
- Obtiene 73.4 puntos en SWE-bench Verified (evaluación de corrección de bugs de software reales) y 51.5 puntos en Terminal-Bench 2.0, superando en muchos apartados a Qwen3.5-27B, un modelo Dense mucho más grande en parámetros (estructura tradicional que usa todos los parámetros)
- Logra 92.7 puntos en la competencia matemática AIME 2026 y 80.4 puntos en codificación en tiempo real (LiveCodeBench v6), quedando al nivel del modelo Dense de 27B
- En el área multimodal registra 81.7 puntos en MMMU y 85.3 en RealWorldQA, superando a Claude Sonnet 4.5 (modelo comercial de pago), y destaca especialmente en inteligencia espacial, como el reconocimiento de la ubicación de objetos en imágenes (RefCOCO 92.0)
- Puede integrarse de inmediato con herramientas de codificación de terceros como OpenClaw, Claude Code y Qwen Code, y también es compatible con el protocolo de la API de Anthropic
Ventajas
- Con 3B de parámetros activos ofrece un rendimiento comparable al de modelos Dense de 27~31B, por lo que requiere menos memoria de GPU y consume menos energía, permitiendo su operación incluso en entornos pequeños
- Se sitúa entre los mejores de su categoría en benchmarks de codificación agéntica en general
- Procesa texto, imágenes, video y documentos en un solo modelo
- Es completamente open source, así que cualquiera puede descargarlo, seguir entrenándolo y personalizarlo
Desventajas
- En tareas de agente de propósito general (VITA-Bench 35.6 puntos) queda por debajo del modelo Dense 27B anterior (41.8 puntos), así que todavía hay margen de mejora
- También se queda atrás frente a grandes modelos Dense en razonamiento académico de máxima dificultad (HLE 21.4 puntos frente a 24.3)
- Presenta una ligera desventaja en el benchmark de conocimiento MMLU-Pro
- La API todavía está en estado de “coming soon”, lo que dificulta su aplicación inmediata en servicios a gran escala
Diferenciadores
- Supera con amplitud en casi todos los benchmarks a Google Gemma4-26B-A4B, que usa una estructura MoE similar
- En tareas de agente, la función
preserve_thinking, que conserva el contenido de razonamiento de los turnos previos de conversación, le da ventaja para mantener contexto a largo plazo - Al ser compatible incluso con el protocolo de la API de Anthropic, puede entrar de inmediato al ecosistema de Claude Code
Implicaciones
- Que 3B de parámetros activos logren resultados comparables a un modelo de 27B muestra que la arquitectura MoE se está convirtiendo en un nuevo estándar de eficiencia en IA
- Al superar en varios apartados a modelos de pago como Claude Sonnet 4.5, los modelos open source están reforzando el incentivo para que las empresas cambien APIs costosas por hosting propio
- Como la composición de los benchmarks da un peso muy alto a la codificación agéntica, esto sugiere que la industria está considerando la capacidad de desarrollo autónomo de software de la IA como el criterio de evaluación más importante
2 comentarios
Según los resultados de los experimentos de nuestro laboratorio, es un modelo que el equipo de Qwen, sin el verdadero equipo de Qwen, lanzó apresuradamente solo para ajustarse a los benchmarks e intentar manejar la ansiedad del mercado. Tiene una obsesión muy fuerte con las herramientas. Creemos que es un retroceso frente a la 3.5.
He estado probando la versión Q3.5 en Mac, y de verdad me ha impresionado la mejora en inteligencia en comparación con las generaciones anteriores. Con que ya alcanzó incluso a Oss 120b, ya está todo dicho.