- La serie Qwen3.5 está compuesta por cuatro modelos grandes de lenguaje, incluidos 35B, 122B y 27B, y tres de ellos se publican bajo la licencia open source Apache 2.0
- Muestran un rendimiento en benchmarks que supera a OpenAI GPT-5-mini y Anthropic Claude Sonnet 4.5, y pueden ejecutarse con alto rendimiento incluso en entornos con GPU local
- Con cuantización de 4 bits (quantization) mantienen casi intacta la precisión y admiten una ventana de contexto de más de 1 millón de tokens, lo que permite procesar grandes volúmenes de datos incluso en GPU de escritorio
- Combinan la estructura de Gated Delta Networks y Mixture-of-Experts (MoE) para mejorar la eficiencia, y mediante “Thinking Mode” generan respuestas después de pasar por un proceso interno de razonamiento
- Esto permite a las empresas construir IA on-premise con protección de privacidad y desarrollar agentes autónomos sin depender de costosos servicios en la nube
Resumen del modelo Qwen3.5-Medium
- La serie Qwen3.5-Medium, publicada por el equipo Qwen AI de Alibaba, está compuesta por cuatro LLM compatibles con agentic tool calling
- Modelos públicos: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Modelo propietario: Qwen3.5-Flash (solo para la API de Alibaba Cloud Model Studio)
- Los tres modelos open source pueden descargarse desde Hugging Face y ModelScope
- Qwen3.5-Flash se ofrece en forma de API comercial y tiene costos operativos más bajos que los modelos occidentales comparables
Rendimiento y estructura técnica
- Los modelos Qwen3.5 superan a OpenAI GPT-5-mini y Claude Sonnet 4.5 en benchmarks
- Incluso después de la cuantización (quantization), mantienen una alta precisión y admiten una ventana de contexto de más de 1 millón de tokens en un entorno de GPU local (32 GB de VRAM)
- La cuantización de pesos de 4 bits y del caché KV permite precisión sin pérdida y procesamiento de datos a gran escala
- Arquitectura híbrida: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- De un total de 35 mil millones de parámetros, solo se activan 300 millones
- La capa MoE está compuesta por 256 expertos (8 de enrutamiento + 1 compartido)
- Mantiene la precisión incluso con compresión de 4 bits, reduciendo el uso de memoria en despliegues locales
- También se publicó el modelo Qwen3.5-35B-A3B-Base para apoyar la investigación
Configuración del producto y funciones
- Thinking Mode: antes de responder, el modelo genera su proceso interno de razonamiento con la etiqueta ``
- Características por modelo
- Qwen3.5-27B: enfocado en eficiencia, con soporte para contextos de más de 800 mil tokens
- Qwen3.5-Flash: contexto base de 1 millón de tokens, con herramientas oficiales integradas
- Qwen3.5-122B-A10B: para GPU de clase servidor (80 GB de VRAM), con soporte para más de 1 millón de tokens de contexto
- Resultados de benchmarks: Qwen3.5-35B-A3B supera a Qwen3-235B, GPT-5-mini y Sonnet 4.5 en conocimiento (MMMLU) y razonamiento visual (MMMU-Pro)
Precios e integración de API
- Tarifas de la API de Qwen3.5-Flash
- Entrada: $0.1 / 1 millón de tokens
- Salida: $0.4 / 1 millón de tokens
- Creación de caché: $0.125 / 1 millón de tokens
- Lectura de caché: $0.01 / 1 millón de tokens
- Plan de cobro por llamadas a herramientas: Web Search $10/1,000 usos, Code Interpreter gratis (temporalmente)
- En comparación con los principales LLM, es una de las API más baratas
- Ejemplo: Claude Sonnet 4.5 cuesta un total de $18/1 millón de tokens, GPT-5.2 $15.75 y Qwen3.5-Flash $0.5
Uso empresarial e implicaciones
- La publicación de Qwen3.5-Medium hace posible que empresas comunes también puedan ajustar y desplegar modelos al nivel de grandes laboratorios de investigación
- Permite analizar grandes volúmenes de documentos y video en entornos on-premise, reforzando la privacidad de los datos
- Ejecutar una arquitectura Mixture-of-Experts dentro del firewall corporativo ayuda a mantener la soberanía de los datos
- Con Thinking Mode y Tool Calling, es posible construir agentes de IA autónomos
- Los primeros usuarios evalúan que “ha reducido la brecha con los grandes modelos cerrados”
- Su diseño centrado en la eficiencia permite reducir costos, reforzar seguridad y ganar agilidad operativa en la integración de IA
4 comentarios
Tengo una RTX Pro 6000 (96 GB, en la práctica 94 GB), pero el modelo 122B no carga con
ollama. Parece que es por la parte que incluye el vision transformer, ya que es un modelo de visión. En cambio, el modelo GPT OSS 120b sí carga con bastante margen.Sí... cuando se usa un codificador de visión, incluso un modelo de 1B termina consumiendo 9 GB de VRAM.
Solo rinde bien si lo ejecutas con un servidor de
llama.cppbasado en CUDA.Opiniones en Hacker News
La mayoría de los modelos open source están jugando al juego de optimizar benchmarks
Cada modelo nuevo se promociona como si estuviera al nivel del SOTA de hace unos meses, pero al usarlos de verdad muchas veces decepcionan
Probé Qwen3-Coder-Next y Qwen3.5, y no llegan al nivel de Sonnet 4.5
Aun así, si se define claramente el objetivo y se le imponen restricciones mediante pruebas, insiste bastante y termina resolviendo el problema
De todos modos, como modelo open source es impresionante, y es sorprendente que este nivel sea posible en un entorno self-hosted
Pero no hay que creer el hype exagerado de que está al nivel de Sonnet 4.5
En particular, StepFun-3.5-flash funciona excelente incluso en codebases complejos de Rust
No tengo ninguna relación con StepFun, pero le tengo un profundo respeto al equipo que logró este rendimiento con una arquitectura 196B/11B
El benchmark de GertLabs, que pone a competir modelos entre sí, es bastante confiable porque es difícil de manipular
De hecho, los modelos en la nube podrían hacerlo aún más porque pueden ajustar hasta el runtime
Antes casi no servían para nada, pero esta vez sí me sorprendió de verdad
Si usa pruebas distintas a los problemas estándar, probablemente también resista mejor la sobreoptimización
Estoy comparando rendimiento ejecutando modelos locales en una MBP M3 Max 128G
Opus 4.6 y Gemini Pro fueron rápidos y precisos, pero qwen3.5:35b-a3b tardó 45 minutos y dio una respuesta inexacta
El ruido de los ventiladores era tan fuerte como un avión despegando
Me pregunto si realmente es viable manejar codebases grandes con un modelo tan lento
Los modelos en la nube corren con más de 1T parámetros y GPUs que cuestan millones de dólares
La programación local está más bien en un nivel realista de “generar boilerplate para apps de Android”
Los modelos locales todavía están más o menos en un nivel de dos generaciones atrás, y si de verdad estuvieran al nivel de Sonnet 4.5, habría una gran diferencia frente a Opus 4.6
En realidad, un modelo pequeño especializado en un problema acotado puede funcionar mejor
Nuestro equipo está ejecutando en una M2 16GB un modelo pequeño enfocado solo en programación, y creemos que es mejor que Sonnet 4.5
Pronto vamos a lanzar la beta de rig.ai
Incluso en servidores, fijar la velocidad de los ventiladores al 100% mejora el rendimiento de la GPU en un 30%
Los modelos locales son adecuados para tareas ligeras, y para lo pesado es más eficiente usar la nube
Hay reportes de que funciona mucho más eficientemente si se le da un system prompt largo o contenido de archivos
Escribí una guía para configurar llama.cpp, OpenCode y Qwen3-Coder-30B-A3B-Instruct (GGUF, cuantización Q4_K_M) en una MacBook Pro M1
La instalación fue bastante complicada, pero también puede aplicarse a modelos más recientes
Enlace a la guía de instalación
Gracias a la estructura MoE, la velocidad de inferencia también es rápida
Elegí la cuantización Q4_K_M, pero me pregunto si realmente es la mejor opción
Empecé a estudiar el interior de los LLM y me di cuenta de que float32 es una precisión demasiado generosa
Aprendí sobre cuantización a través de blogs y le pedí a Claude que analizara la precisión de cuantizaciones de 1 a 8 bits
Los 4 bits parecían el sweet spot, casi sin pérdida con una similitud del 99% y ocupando la mitad que 8 bits
Me parece interesante ver que los expertos de verdad también usan 4 bits
Los modelos GPT-OSS fueron entrenados en formato MXFP4
Documento de estandarización de OCP, Especificación del formato MX
Como el cómputo es muy rápido y la eficiencia de caché es alta, vale la pena explorarlos
El sistema es tan de caja negra que cuesta entenderlo de forma intuitiva
Probé Qwen3.5 122B con LM Studio y Opencode, y me pareció bastante impresionante
Incluso en un entorno M4 Max/128GB no se siente lento, y muestra una capacidad de análisis de código al nivel de Claude Code
Sorprende lo mucho que han avanzado las alternativas completamente locales
Los modelos abiertos están mejorando cada vez más, pero todavía no están al nivel de Sonnet 4.5
En dominios acotados son excelentes, pero siguen siendo débiles para resolver problemas ambiguos
Qwen 3.5 fue el mejor OSS que he usado hasta ahora, y empieza a mostrar algo parecido a inteligencia real
Lo ejecuto gratis en una RTX 6000 Pro, pero sigo usando más Composer 1.5
Aun así, espero que antes de fin de año salga un modelo local al nivel de GPT 5.2
Hay muchas afirmaciones exageradas
Son pocos los que realmente los han usado, y muchas veces faltan criterios realistas
Antes siempre venía la advertencia de que “no sirve más allá de unos cuantos K tokens”
Otros modelos implementaban mal la pila o hacían un desastre con la UI
Claude Sonnet 4.6 también resolvió bien este problema, pero fuera de eso casi todos fallaron
Antes estos modelos siempre alucinaban código de pandas, así que esto es un gran avance
Llama la atención que Claude no aparezca en la tabla SWE
Da la impresión de que los datos fueron manipulados intencionalmente
Solo esa actitud ya hace que se pierda la confianza
Espero con ganas el día en que pueda ejecutarlo yo mismo en local
Quiero depender menos de servicios de EE. UU.
Me pregunto si existe algún servicio en Europa para probar modelos abiertos