Los modelos open source Qwen3.5-Medium de Alibaba ofrecen rendimiento al nivel de Sonnet 4.5 en local

(venturebeat.com)

22 puntos por GN⁺ 2026-03-02 | 4 comentarios | Compartir por WhatsApp

La serie Qwen3.5 está compuesta por cuatro modelos grandes de lenguaje, incluidos 35B, 122B y 27B, y tres de ellos se publican bajo la licencia open source Apache 2.0
Muestran un rendimiento en benchmarks que supera a OpenAI GPT-5-mini y Anthropic Claude Sonnet 4.5, y pueden ejecutarse con alto rendimiento incluso en entornos con GPU local
Con cuantización de 4 bits (quantization) mantienen casi intacta la precisión y admiten una ventana de contexto de más de 1 millón de tokens, lo que permite procesar grandes volúmenes de datos incluso en GPU de escritorio
Combinan la estructura de Gated Delta Networks y Mixture-of-Experts (MoE) para mejorar la eficiencia, y mediante “Thinking Mode” generan respuestas después de pasar por un proceso interno de razonamiento
Esto permite a las empresas construir IA on-premise con protección de privacidad y desarrollar agentes autónomos sin depender de costosos servicios en la nube

Resumen del modelo Qwen3.5-Medium

La serie Qwen3.5-Medium, publicada por el equipo Qwen AI de Alibaba, está compuesta por cuatro LLM compatibles con agentic tool calling
- Modelos públicos: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Modelo propietario: Qwen3.5-Flash (solo para la API de Alibaba Cloud Model Studio)
Los tres modelos open source pueden descargarse desde Hugging Face y ModelScope
Qwen3.5-Flash se ofrece en forma de API comercial y tiene costos operativos más bajos que los modelos occidentales comparables

Rendimiento y estructura técnica

Los modelos Qwen3.5 superan a OpenAI GPT-5-mini y Claude Sonnet 4.5 en benchmarks
Incluso después de la cuantización (quantization), mantienen una alta precisión y admiten una ventana de contexto de más de 1 millón de tokens en un entorno de GPU local (32 GB de VRAM)
La cuantización de pesos de 4 bits y del caché KV permite precisión sin pérdida y procesamiento de datos a gran escala
Arquitectura híbrida: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- De un total de 35 mil millones de parámetros, solo se activan 300 millones
- La capa MoE está compuesta por 256 expertos (8 de enrutamiento + 1 compartido)
- Mantiene la precisión incluso con compresión de 4 bits, reduciendo el uso de memoria en despliegues locales
También se publicó el modelo Qwen3.5-35B-A3B-Base para apoyar la investigación

Configuración del producto y funciones

Thinking Mode: antes de responder, el modelo genera su proceso interno de razonamiento con la etiqueta ``
Características por modelo
- Qwen3.5-27B: enfocado en eficiencia, con soporte para contextos de más de 800 mil tokens
- Qwen3.5-Flash: contexto base de 1 millón de tokens, con herramientas oficiales integradas
- Qwen3.5-122B-A10B: para GPU de clase servidor (80 GB de VRAM), con soporte para más de 1 millón de tokens de contexto
Resultados de benchmarks: Qwen3.5-35B-A3B supera a Qwen3-235B, GPT-5-mini y Sonnet 4.5 en conocimiento (MMMLU) y razonamiento visual (MMMU-Pro)

Precios e integración de API

Tarifas de la API de Qwen3.5-Flash
- Entrada: $0.1 / 1 millón de tokens
- Salida: $0.4 / 1 millón de tokens
- Creación de caché: $0.125 / 1 millón de tokens
- Lectura de caché: $0.01 / 1 millón de tokens
Plan de cobro por llamadas a herramientas: Web Search $10/1,000 usos, Code Interpreter gratis (temporalmente)
En comparación con los principales LLM, es una de las API más baratas
- Ejemplo: Claude Sonnet 4.5 cuesta un total de $18/1 millón de tokens, GPT-5.2 $15.75 y Qwen3.5-Flash $0.5

Uso empresarial e implicaciones

La publicación de Qwen3.5-Medium hace posible que empresas comunes también puedan ajustar y desplegar modelos al nivel de grandes laboratorios de investigación
Permite analizar grandes volúmenes de documentos y video en entornos on-premise, reforzando la privacidad de los datos
Ejecutar una arquitectura Mixture-of-Experts dentro del firewall corporativo ayuda a mantener la soberanía de los datos
Con Thinking Mode y Tool Calling, es posible construir agentes de IA autónomos
Los primeros usuarios evalúan que “ha reducido la brecha con los grandes modelos cerrados”
Su diseño centrado en la eficiencia permite reducir costos, reforzar seguridad y ganar agilidad operativa en la integración de IA

4 comentarios

chcv0313 2026-03-02

Tengo una RTX Pro 6000 (96 GB, en la práctica 94 GB), pero el modelo 122B no carga con ollama. Parece que es por la parte que incluye el vision transformer, ya que es un modelo de visión. En cambio, el modelo GPT OSS 120b sí carga con bastante margen.

ng0301 2026-03-02

Sí... cuando se usa un codificador de visión, incluso un modelo de 1B termina consumiendo 9 GB de VRAM.

kensin2 2026-03-02

Solo rinde bien si lo ejecutas con un servidor de llama.cpp basado en CUDA.

GN⁺ 2026-03-02

Opiniones en Hacker News

La mayoría de los modelos open source están jugando al juego de optimizar benchmarks
Cada modelo nuevo se promociona como si estuviera al nivel del SOTA de hace unos meses, pero al usarlos de verdad muchas veces decepcionan
Probé Qwen3-Coder-Next y Qwen3.5, y no llegan al nivel de Sonnet 4.5
Aun así, si se define claramente el objetivo y se le imponen restricciones mediante pruebas, insiste bastante y termina resolviendo el problema
De todos modos, como modelo open source es impresionante, y es sorprendente que este nivel sea posible en un entorno self-hosted
Pero no hay que creer el hype exagerado de que está al nivel de Sonnet 4.5
- En mi experiencia, algunos modelos open source sí son realmente potentes y prácticos
  En particular, StepFun-3.5-flash funciona excelente incluso en codebases complejos de Rust
  No tengo ninguna relación con StepFun, pero le tengo un profundo respeto al equipo que logró este rendimiento con una arquitectura 196B/11B
- Los modelos de la “generación pasada” siguen siendo mejores que los open source, pero modelos como GLM-5 parecen haber captado bien la capacidad de hacer pattern matching
  El benchmark de GertLabs, que pone a competir modelos entre sí, es bastante confiable porque es difícil de manipular
- En realidad, esta optimización para benchmarks es algo que hacen todos los modelos
  De hecho, los modelos en la nube podrían hacerlo aún más porque pueden ajustar hasta el runtime
- Estoy ejecutando Qwen 3.5 27B en una 4090, y es la primera vez que veo un modelo local con un rendimiento para programar tan bueno
  Antes casi no servían para nada, pero esta vez sí me sorprendió de verdad
- Me preguntaba si existía algún benchmark reciente de programación offline/privada, y Apex Testing se ve bastante bien
  Si usa pruebas distintas a los problemas estándar, probablemente también resista mejor la sobreoptimización
Estoy comparando rendimiento ejecutando modelos locales en una MBP M3 Max 128G
Opus 4.6 y Gemini Pro fueron rápidos y precisos, pero qwen3.5:35b-a3b tardó 45 minutos y dio una respuesta inexacta
El ruido de los ventiladores era tan fuerte como un avión despegando
Me pregunto si realmente es viable manejar codebases grandes con un modelo tan lento
- En realidad, ejecutar un modelo open de 100B parámetros en una laptop tiene sus límites
  Los modelos en la nube corren con más de 1T parámetros y GPUs que cuestan millones de dólares
  La programación local está más bien en un nivel realista de “generar boilerplate para apps de Android”
- Opus y Gemini corren en GPUs tipo H200 de millones de dólares
  Los modelos locales todavía están más o menos en un nivel de dos generaciones atrás, y si de verdad estuvieran al nivel de Sonnet 4.5, habría una gran diferencia frente a Opus 4.6
- La industria está cayendo en la falacia lógica de que “los modelos grandes siempre son mejores”
  En realidad, un modelo pequeño especializado en un problema acotado puede funcionar mejor
  Nuestro equipo está ejecutando en una M2 16GB un modelo pequeño enfocado solo en programación, y creemos que es mejor que Sonnet 4.5
  Pronto vamos a lanzar la beta de rig.ai
- La MacBook tiene limitaciones térmicas fuertes, así que no es ideal para trabajos largos
  Incluso en servidores, fijar la velocidad de los ventiladores al 100% mejora el rendimiento de la GPU en un 30%
  Los modelos locales son adecuados para tareas ligeras, y para lo pesado es más eficiente usar la nube
- qwen3.5-35b-a3b tiende a dedicar mucho tiempo al razonamiento cuando el contexto es corto
  Hay reportes de que funciona mucho más eficientemente si se le da un system prompt largo o contenido de archivos
Escribí una guía para configurar llama.cpp, OpenCode y Qwen3-Coder-30B-A3B-Instruct (GGUF, cuantización Q4_K_M) en una MacBook Pro M1
La instalación fue bastante complicada, pero también puede aplicarse a modelos más recientes
Enlace a la guía de instalación
- Con LM Studio se puede instalar con una sola búsqueda y un clic, y queda expuesto como una API compatible con OpenAI
- Hice la misma configuración en un desktop Ryzen de 32GB, y Qwen fue el que más me impresionó
  Gracias a la estructura MoE, la velocidad de inferencia también es rápida
  Elegí la cuantización Q4_K_M, pero me pregunto si realmente es la mejor opción
- Estoy esperando que aparezcan modelos locales realmente útiles incluso con 16GB de RAM
- Me gustaría saber qué tal es la velocidad de ejecución en M1
Empecé a estudiar el interior de los LLM y me di cuenta de que float32 es una precisión demasiado generosa
Aprendí sobre cuantización a través de blogs y le pedí a Claude que analizara la precisión de cuantizaciones de 1 a 8 bits
Los 4 bits parecían el sweet spot, casi sin pérdida con una similitud del 99% y ocupando la mitad que 8 bits
Me parece interesante ver que los expertos de verdad también usan 4 bits
- El hardware reciente de NVIDIA también soporta entrenamiento en 4 bits
  Los modelos GPT-OSS fueron entrenados en formato MXFP4
  Documento de estandarización de OCP, Especificación del formato MX
- La investigación sobre modelos ternarios también es interesante
  Como el cómputo es muy rápido y la eficiencia de caché es alta, vale la pena explorarlos
- Quisiera seguir aprendiendo sobre este tema, pero me pregunto si hay recursos recomendables
- No me queda claro qué tipo de efecto cognitivo produce en la práctica una diferencia de precisión del 1%
  El sistema es tan de caja negra que cuesta entenderlo de forma intuitiva
Probé Qwen3.5 122B con LM Studio y Opencode, y me pareció bastante impresionante
Incluso en un entorno M4 Max/128GB no se siente lento, y muestra una capacidad de análisis de código al nivel de Claude Code
Sorprende lo mucho que han avanzado las alternativas completamente locales
Los modelos abiertos están mejorando cada vez más, pero todavía no están al nivel de Sonnet 4.5
En dominios acotados son excelentes, pero siguen siendo débiles para resolver problemas ambiguos
Qwen 3.5 fue el mejor OSS que he usado hasta ahora, y empieza a mostrar algo parecido a inteligencia real
Lo ejecuto gratis en una RTX 6000 Pro, pero sigo usando más Composer 1.5
Aun así, espero que antes de fin de año salga un modelo local al nivel de GPT 5.2
Hay muchas afirmaciones exageradas
Son pocos los que realmente los han usado, y muchas veces faltan criterios realistas
Antes siempre venía la advertencia de que “no sirve más allá de unos cuantos K tokens”
- Hice una web app de calculadora RPN con Qwen 3.5 122B/a10B (q3, unsloth dynamic quant), y fue el primer modelo local con el que funcionó completamente
  Otros modelos implementaban mal la pila o hacían un desastre con la UI
  Claude Sonnet 4.6 también resolvió bien este problema, pero fuera de eso casi todos fallaron
- Qwen3-Coder-30B-A3B-Instruct es bueno para integración con IDE o tareas a nivel de funciones pequeñas, pero tiene límites en la implementación de funcionalidades grandes
- Con el modelo 35B logré completar una implementación de PCA basada en Polars en 10 minutos
  Antes estos modelos siempre alucinaban código de pandas, así que esto es un gran avance
Llama la atención que Claude no aparezca en la tabla SWE
Da la impresión de que los datos fueron manipulados intencionalmente
Solo esa actitud ya hace que se pierda la confianza
Espero con ganas el día en que pueda ejecutarlo yo mismo en local
Quiero depender menos de servicios de EE. UU.
Me pregunto si existe algún servicio en Europa para probar modelos abiertos
- Koyeb permite alquilar GPU por minuto desde que fue adquirida por Mistral, y también ofrece despliegue de modelos con un clic