- Qwen3.5-397B-A17B es un modelo unificado de lenguaje y visión que muestra un rendimiento sobresaliente en razonamiento, código, agentes y comprensión multimodal
- Con una arquitectura híbrida que combina atención lineal basada en GDN y MoE disperso, solo se activan 17 mil millones de sus 397 mil millones de parámetros, logrando al mismo tiempo eficiencia de inferencia y reducción de costos
- El soporte de idiomas y dialectos se amplió de 119 a 201, reforzando la accesibilidad global y el rendimiento multilingüe
- Qwen3.5-Plus, disponible a través de Alibaba Cloud Model Studio, ofrece de forma nativa una ventana de contexto de 1 millón de tokens y uso adaptativo de herramientas
- Con la expansión del entorno de aprendizaje por refuerzo y un diseño de infraestructura eficiente, asegura la estabilidad y escalabilidad del entrenamiento e inferencia de agentes multimodales a gran escala
Resumen de Qwen3.5
- Qwen3.5 es un modelo integrado de visión y lenguaje que muestra un rendimiento sobresaliente en diversos benchmarks de razonamiento, código, agentes y comprensión multimodal
- Nombre del modelo: Qwen3.5-397B-A17B, con un total de 397 mil millones de parámetros, de los cuales solo 17 mil millones se activan
- Combina atención lineal basada en Gated Delta Networks y una arquitectura sparse Mixture-of-Experts para optimizar velocidad y costo
- El soporte de idiomas se amplió de 119 a 201, mejorando la accesibilidad multilingüe
- Qwen3.5-Plus se ofrece en Alibaba Cloud Model Studio y
- incluye ventana de contexto de 1M, herramientas oficiales integradas y uso adaptativo de herramientas
Evaluación de rendimiento
- Al comparar Qwen3.5 con modelos recientes como GPT5.2, Claude 4.5 Opus y Gemini-3 Pro,
- registra puntajes competitivos en lenguaje, razonamiento, código, agentes y multimodalidad
- En evaluación de lenguaje, logra un rendimiento de primer nivel con MMLU-Pro 94.9, SuperGPQA 70.4 e IFBench 76.5
- En evaluación visión-lenguaje, obtiene puntajes altos en MathVision 88.6, AI2D_TEST 93.9 y OCRBench 93.1
- Muestra mejoras frente a Qwen3-VL en comprensión multimodal y resolución de problemas STEM
- La expansión del entorno de aprendizaje por refuerzo mejoró el desempeño de agentes generales, con una mejor posición promedio en BFCL-V4 y VITA-Bench
Preentrenamiento (Pretraining)
- Power: frente a Qwen3, refuerza el entrenamiento a gran escala con tokens visuales y de texto, además de datos multilingües, STEM y de razonamiento
- Qwen3.5-397B-A17B alcanza un rendimiento equivalente al de un modelo de nivel 1T de parámetros (Qwen3-Max-Base)
- Efficiency: basado en la arquitectura Qwen3-Next, aplica sparsificación MoE, Gated DeltaNet y predicción multi-token
- En contextos de 32k/256k, logra un throughput de decodificación 8.6x/19x superior al de Qwen3-Max
- Versatility: mediante fusión temprana de texto y visión, permite un procesamiento multimodal natural
- con un vocabulario de 250 mil términos (frente a 150 mil antes), mejora la eficiencia de codificación y decodificación entre 10% y 60%
Infraestructura y framework de entrenamiento
- Una infraestructura heterogénea con estrategias paralelas separadas para visión y lenguaje permite un entrenamiento multimodal eficiente
- aprovechando la activación dispersa, alcanza una eficiencia de procesamiento cercana al 100% incluso con datos mixtos de texto, imagen y video
- Un pipeline FP8 optimiza la precisión de activaciones, enrutamiento MoE y operaciones GEMM
- con una reducción del 50% en uso de memoria y una mejora de velocidad de más del 10%
- Se construyó un framework asíncrono de aprendizaje por refuerzo para entrenar modelos de texto, multimodales y de múltiples turnos
- con entrenamiento end-to-end en FP8, speculative decoding y multi-turn rollout locking, entre otros,
logra una mejora de velocidad de procesamiento de 3 a 5 veces y escalabilidad estable
Uso e integración
- En Qwen Chat se ofrecen los modos Auto, Thinking y Fast
- Auto: uso automático de herramientas y razonamiento adaptativo
- Thinking: razonamiento profundo
- Fast: respuesta inmediata
- A través de la API de ModelStudio se pueden activar las funciones de reasoning, web search y Code Interpreter
- controladas con los parámetros
enable_thinking y enable_search
- Se integra con Qwen Code, OpenClaw y otros para habilitar programación basada en lenguaje natural y creación multimodal
Demos y aplicaciones
- Desarrollo web: generación de páginas web y código de UI mediante instrucciones en lenguaje natural
- Visual Agent: ejecución de operaciones automáticas basadas en lenguaje natural en smartphones y PC
- Visual Coding: con entrada de 1 millón de tokens, permite procesar hasta 2 horas de video
- admite conversión de UI dibujadas a mano a código, resúmenes de video y más
- Spatial Intelligence: mejora en conteo de objetos, relaciones de ubicación y precisión en descripciones espaciales
- sugiere posibilidades de aplicación en conducción autónoma y robótica
- Visual Reasoning: mejora frente a Qwen3-VL en resolución de problemas científicos y razonamiento lógico visual
Resumen y dirección futura
- Qwen3.5, basado en una arquitectura híbrida eficiente y razonamiento multimodal nativo,
sienta las bases para construir un agente digital de propósito general
- El objetivo a futuro es pasar de la expansión del modelo a la integración del sistema
- con el desarrollo de un sistema de agentes autónomos y persistentes con memoria continua, interfaces con el mundo real, auto-mejora y toma de decisiones económica
1 comentarios
Comentarios en Hacker News
Me pareció interesante la noticia de que en el problema difícil de LLM de hoy eligieron “drive the car to the wash”
Como los LLM terminan consumiendo todos los corpus, es difícil distinguir si la mejora es aprendizaje real o si simplemente les pegaron una especie de “post-it memo”
Hace falta una forma de expresarlas en lenguaje natural pero que para el LLM parezcan problemas “cifrados”
Por ejemplo, parece que se podría probar con un generador simple de programas en LUA que cree código aleatorio, lo traduzca al inglés, haga que el LLM prediga el resultado y luego lo compare con la ejecución real
Este enfoque se siente como una especie de escenario de guerra informativa
Para quienes estén interesados, subieron los MXFP4 GGUFs a Hugging Face, y la guía para correrlos está resumida en la documentación de unsloth.ai
Pelican está bien, pero no es una buena bicicleta — ver este ejemplo relacionado
Si Qwen 3.5 sale en tamaños de 80~110B, parece que encajaría perfecto en un dispositivo de 128GB. Qwen3-Next es 80B, pero no tiene vision encoder
Es una pena que solo hayan publicado el modelo flagship y que no haya una versión distill pequeña. Los Qwen anteriores estaban buenos porque salían en varios tamaños
El año pasado, para el Año Nuevo lunar, ni me imaginaba que un modelo del nivel de Sonnet 4.5 podría correr rápido en local, pero ahora quizá sea posible en una MacBook Pro M5 Max de 2026
Qwen es un modelo abierto muy potente, y en especial su serie visual impresiona
En un reporte de AI se mencionaba que Fennec (Sonnet 5) saldría el 4 de febrero, pero en realidad fue una mezcla de rumor y alucinación (hallucination) de una herramienta de noticias de AI. Fue un caso interesante
Hay un problema con que el blog de Qwen no carga. Incluso desactivando el bloqueador de anuncios, solo se ve el placeholder
Me pregunto a qué se refieren exactamente con los 15,000 entornos de RL que mencionaron. Puedo imaginar unos cientos, pero más que eso ya no
Hoy en día todos se enfocan solo en los puntajes de benchmark, pero lo realmente importante es si el modelo puede mantener el contexto durante el uso de herramientas en múltiples pasos
La mayoría de los modelos abiertos todavía se caen en esa parte