Qwen3.5: hacia un agente multimodal nativo

(qwen.ai)

6 puntos por GN⁺ 2026-02-17 | 1 comentarios | Compartir por WhatsApp

Qwen3.5-397B-A17B es un modelo unificado de lenguaje y visión que muestra un rendimiento sobresaliente en razonamiento, código, agentes y comprensión multimodal
Con una arquitectura híbrida que combina atención lineal basada en GDN y MoE disperso, solo se activan 17 mil millones de sus 397 mil millones de parámetros, logrando al mismo tiempo eficiencia de inferencia y reducción de costos
El soporte de idiomas y dialectos se amplió de 119 a 201, reforzando la accesibilidad global y el rendimiento multilingüe
Qwen3.5-Plus, disponible a través de Alibaba Cloud Model Studio, ofrece de forma nativa una ventana de contexto de 1 millón de tokens y uso adaptativo de herramientas
Con la expansión del entorno de aprendizaje por refuerzo y un diseño de infraestructura eficiente, asegura la estabilidad y escalabilidad del entrenamiento e inferencia de agentes multimodales a gran escala

Resumen de Qwen3.5

Qwen3.5 es un modelo integrado de visión y lenguaje que muestra un rendimiento sobresaliente en diversos benchmarks de razonamiento, código, agentes y comprensión multimodal
- Nombre del modelo: Qwen3.5-397B-A17B, con un total de 397 mil millones de parámetros, de los cuales solo 17 mil millones se activan
- Combina atención lineal basada en Gated Delta Networks y una arquitectura sparse Mixture-of-Experts para optimizar velocidad y costo
El soporte de idiomas se amplió de 119 a 201, mejorando la accesibilidad multilingüe
Qwen3.5-Plus se ofrece en Alibaba Cloud Model Studio y
- incluye ventana de contexto de 1M, herramientas oficiales integradas y uso adaptativo de herramientas

Evaluación de rendimiento

Al comparar Qwen3.5 con modelos recientes como GPT5.2, Claude 4.5 Opus y Gemini-3 Pro,
- registra puntajes competitivos en lenguaje, razonamiento, código, agentes y multimodalidad
En evaluación de lenguaje, logra un rendimiento de primer nivel con MMLU-Pro 94.9, SuperGPQA 70.4 e IFBench 76.5
En evaluación visión-lenguaje, obtiene puntajes altos en MathVision 88.6, AI2D_TEST 93.9 y OCRBench 93.1
Muestra mejoras frente a Qwen3-VL en comprensión multimodal y resolución de problemas STEM
La expansión del entorno de aprendizaje por refuerzo mejoró el desempeño de agentes generales, con una mejor posición promedio en BFCL-V4 y VITA-Bench

Preentrenamiento (Pretraining)

Power: frente a Qwen3, refuerza el entrenamiento a gran escala con tokens visuales y de texto, además de datos multilingües, STEM y de razonamiento
- Qwen3.5-397B-A17B alcanza un rendimiento equivalente al de un modelo de nivel 1T de parámetros (Qwen3-Max-Base)
Efficiency: basado en la arquitectura Qwen3-Next, aplica sparsificación MoE, Gated DeltaNet y predicción multi-token
- En contextos de 32k/256k, logra un throughput de decodificación 8.6x/19x superior al de Qwen3-Max
Versatility: mediante fusión temprana de texto y visión, permite un procesamiento multimodal natural
- con un vocabulario de 250 mil términos (frente a 150 mil antes), mejora la eficiencia de codificación y decodificación entre 10% y 60%

Infraestructura y framework de entrenamiento

Una infraestructura heterogénea con estrategias paralelas separadas para visión y lenguaje permite un entrenamiento multimodal eficiente
- aprovechando la activación dispersa, alcanza una eficiencia de procesamiento cercana al 100% incluso con datos mixtos de texto, imagen y video
Un pipeline FP8 optimiza la precisión de activaciones, enrutamiento MoE y operaciones GEMM
- con una reducción del 50% en uso de memoria y una mejora de velocidad de más del 10%
Se construyó un framework asíncrono de aprendizaje por refuerzo para entrenar modelos de texto, multimodales y de múltiples turnos
- con entrenamiento end-to-end en FP8, speculative decoding y multi-turn rollout locking, entre otros,
  logra una mejora de velocidad de procesamiento de 3 a 5 veces y escalabilidad estable

Uso e integración

En Qwen Chat se ofrecen los modos Auto, Thinking y Fast
- Auto: uso automático de herramientas y razonamiento adaptativo
- Thinking: razonamiento profundo
- Fast: respuesta inmediata
A través de la API de ModelStudio se pueden activar las funciones de reasoning, web search y Code Interpreter
- controladas con los parámetros enable_thinking y enable_search
Se integra con Qwen Code, OpenClaw y otros para habilitar programación basada en lenguaje natural y creación multimodal

Demos y aplicaciones

Desarrollo web: generación de páginas web y código de UI mediante instrucciones en lenguaje natural
Visual Agent: ejecución de operaciones automáticas basadas en lenguaje natural en smartphones y PC
Visual Coding: con entrada de 1 millón de tokens, permite procesar hasta 2 horas de video
- admite conversión de UI dibujadas a mano a código, resúmenes de video y más
Spatial Intelligence: mejora en conteo de objetos, relaciones de ubicación y precisión en descripciones espaciales
- sugiere posibilidades de aplicación en conducción autónoma y robótica
Visual Reasoning: mejora frente a Qwen3-VL en resolución de problemas científicos y razonamiento lógico visual

Resumen y dirección futura

Qwen3.5, basado en una arquitectura híbrida eficiente y razonamiento multimodal nativo,
sienta las bases para construir un agente digital de propósito general
El objetivo a futuro es pasar de la expansión del modelo a la integración del sistema
- con el desarrollo de un sistema de agentes autónomos y persistentes con memoria continua, interfaces con el mundo real, auto-mejora y toma de decisiones económica

1 comentarios

GN⁺ 2026-02-17

Comentarios en Hacker News

Me pareció interesante la noticia de que en el problema difícil de LLM de hoy eligieron “drive the car to the wash”
- Más que el rendimiento, lo que me da curiosidad es encontrar una forma de detectar sistemáticamente este tipo de “preguntas desconcertantes” y de muestrearlas estadísticamente para medir con qué frecuencia ocurren en cada LLM
  Como los LLM terminan consumiendo todos los corpus, es difícil distinguir si la mejora es aprendizaje real o si simplemente les pegaron una especie de “post-it memo”
  Hace falta una forma de expresarlas en lenguaje natural pero que para el LLM parezcan problemas “cifrados”
  Por ejemplo, parece que se podría probar con un generador simple de programas en LUA que cree código aleatorio, lo traduzca al inglés, haga que el LLM prediga el resultado y luego lo compare con la ejecución real
  Este enfoque se siente como una especie de escenario de guerra informativa
- Mi agente OpenClaw AI respondió en tono de broma algo como “tiene un cerebro del tamaño de un planeta y aun así los humanos hacen este tipo de preguntas, no es satisfactorio”
- Me pregunto cuánto cambiaría el resultado si modificas un poco la pregunta o si en lugar de un auto pones una bicicleta, camión, barco o avión
- Esa es la respuesta de Gemini assistant. No se reproduce en otros modelos
- Es como un pequeño error que surge de la respuesta de System 1 en humanos. El aprendizaje continuo (Continual learning) podría ser la solución
Para quienes estén interesados, subieron los MXFP4 GGUFs a Hugging Face, y la guía para correrlos está resumida en la documentación de unsloth.ai
- Me pregunto si correr modelos de cuantización de baja precisión de 2~3 bits es más eficiente que modelos de 8~16 bits. Me falta VRAM para poder probarlo
Pelican está bien, pero no es una buena bicicleta — ver este ejemplo relacionado
- Me pregunto cuánto más se ha aprendido sobre el pelícano desde que empezó todo esto
- Puede que ahora ese ejemplo de Pelican ya esté incluido en la mayoría de los datasets de entrenamiento. Estaría bueno crear un nuevo desafío SVG para hacer fallar también a Gemini 3 Deep Think
- Me gustó el punto de color en el suelo de la imagen generada
- Me pregunto con qué criterio deciden publicar el ejemplo final después de varios intentos de generación
- Quisiera saber qué método de cuantización usaron, o si era la versión oficial de la API
Si Qwen 3.5 sale en tamaños de 80~110B, parece que encajaría perfecto en un dispositivo de 128GB. Qwen3-Next es 80B, pero no tiene vision encoder
- Como los modelos open-weight se están volviendo cada vez más grandes, quizá valga la pena considerar comprar otro dispositivo de 128GB
- Me pregunto por qué 128GB. ¿Un modelo de 80B no podría correrse también con dos A6000? Quisiera saber a qué dispositivo se refieren
Es una pena que solo hayan publicado el modelo flagship y que no haya una versión distill pequeña. Los Qwen anteriores estaban buenos porque salían en varios tamaños
- Si ves el código de HF Transformers, parece bastante probable que pronto salgan también versiones dense pequeñas
- Según el GitHub oficial de Qwen, pronto van a lanzar más tamaños, y también publicaron un saludo de Año Nuevo
- Puede que al agregar funcionalidad multimodal el trabajo de distill se haya vuelto más difícil
El año pasado, para el Año Nuevo lunar, ni me imaginaba que un modelo del nivel de Sonnet 4.5 podría correr rápido en local, pero ahora quizá sea posible en una MacBook Pro M5 Max de 2026
- No me emociono demasiado. Según los rumores, parece que ajustaron el benchmark usando un modelo Frontier
- Cuando lo usas de verdad, la diferencia entre benchmark y rendimiento percibido es grande. Después de la cuantización, el rendimiento cae todavía más. Es difícil creerlo antes de probarlo uno mismo
- Ojalá China siga sacando grandes modelos open-weight. Preferiría usar modelos alojados en GPU de servidor más que en local. Después ya se puede hacer distill
- También me pregunto si la M5 MacBook de 2026 vendrá con más de 390GB de RAM
- Me parece que decir que será “rápido” es exagerado. Quizá sirva para cálculos simples, pero para tareas complejas no da. NVIDIA es número uno por algo
Qwen es un modelo abierto muy potente, y en especial su serie visual impresiona
En un reporte de AI se mencionaba que Fennec (Sonnet 5) saldría el 4 de febrero, pero en realidad fue una mezcla de rumor y alucinación (hallucination) de una herramienta de noticias de AI. Fue un caso interesante
- Apenas abrí esa página, el PDF se descargó automáticamente, lo que me sorprendió. Como hablaba de Sonnet 5, me confundí y pensé que era material interno de pruebas
Hay un problema con que el blog de Qwen no carga. Incluso desactivando el bloqueador de anuncios, solo se ve el placeholder
- En iOS Safari carga si activas la opción de reducir otras funciones de protección de privacidad
Me pregunto a qué se refieren exactamente con los 15,000 entornos de RL que mencionaron. Puedo imaginar unos cientos, pero más que eso ya no
- Según rumores, descargan todos los repositorios de GitHub, los clasifican como entornos y evalúan automáticamente si se pueden compilar, su complejidad, si se logra el objetivo, etc. Por ejemplo, construyen un entorno de RL basado en objetivos donde el LLM inserta un bug, induce el fallo de tests y luego lo corrige
- En la práctica, casi cualquier sistema interactivo puede ser un entorno de RL. Si puedes tomar acciones automáticamente en una CLI, GUI o API y medir la calidad del resultado, puedes construir un bucle de entrenamiento
Hoy en día todos se enfocan solo en los puntajes de benchmark, pero lo realmente importante es si el modelo puede mantener el contexto durante el uso de herramientas en múltiples pasos
La mayoría de los modelos abiertos todavía se caen en esa parte

Qwen3.5: hacia un agente multimodal nativo

Resumen de Qwen3.5

Evaluación de rendimiento

Preentrenamiento (Pretraining)

Infraestructura y framework de entrenamiento

Uso e integración

Demos y aplicaciones

Resumen y dirección futura

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News