Guía para ejecutar Qwen3.5 localmente

(unsloth.ai)

33 puntos por GN⁺ 2026-03-09 | 2 comentarios | Compartir por WhatsApp

La familia de modelos Qwen3.5 de Alibaba ofrece varios tamaños, desde 0.8B hasta 397B, y admite razonamiento híbrido multimodal y contexto de 256K
Unsloth ofrece todos los modelos Qwen3.5 con cuantización Dynamic 2.0 GGUF, y pueden ejecutarse localmente mediante llama.cpp o LM Studio
Se puede alternar entre el modo thinking y el modo non-thinking, y los modelos pequeños (0.8B~9B) vienen configurados por defecto en modo non-thinking
Se especifican la capacidad de RAM/VRAM necesaria y los valores de configuración recomendados (temperature, top_p, etc.) para cada modelo, y los modelos 27B y 35B pueden ejecutarse incluso en un entorno Mac de 22 GB
Unsloth GGUF mejora el rendimiento aplicando algoritmos de cuantización mejorados y datos imatrix, pero no es compatible con Ollama

Resumen de Qwen3.5

Qwen3.5 es una nueva serie de LLM publicada por Alibaba, que incluye desde 0.8B, 2B, 4B y 9B (pequeños) hasta 27B, 35B, 122B y 397B (grandes)
- Admite razonamiento híbrido multimodal y procesa 201 idiomas y una longitud de contexto de 256K
- Muestra alto rendimiento en codificación con agentes, visión, conversación y tareas con contexto extenso
Los modelos 35B y 27B pueden ejecutarse incluso en una Mac con 22 GB de RAM
Todos los archivos GGUF usan algoritmos de cuantización mejorados y nuevos datos imatrix
- Mejoras de rendimiento en chat, código, contexto largo y llamadas de herramientas (tool-calling)
- Las capas MXFP4 se eliminaron en algunos GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)

Requisitos de hardware

La tabla indica los requisitos mínimos de memoria según el tamaño del modelo
- Ejemplo: los modelos de 0.8B~2B requieren 3 GB, 9B requiere 5.5 GB (base 3-bit), y 35B-A3B requiere 17 GB
- 397B-A17B requiere 180 GB en 3-bit y 214 GB en 4-bit
La memoria total (RAM+VRAM) debe ser mayor que el tamaño del archivo del modelo para lograr un rendimiento óptimo
- Si no alcanza, puede ejecutarse mediante offloading a SSD/HDD, aunque con una reducción de velocidad
27B es la opción enfocada en precisión, mientras que 35B-A3B prioriza la velocidad

Valores de configuración recomendados

Ventana de contexto máxima: 262,144 (ampliable hasta 1M con YaRN)
presence_penalty: 0.0~2.0 (para reducir repeticiones; cuanto más alto, puede bajar ligeramente el rendimiento)
Longitud de salida: se recomiendan 32,768 tokens
Los valores cambian según el modo Thinking o Non-thinking
- Modo Thinking: para tareas generales, temperature=1.0; para código, 0.6
- Modo Non-thinking: para tareas generales, temperature=0.7; para tareas de razonamiento, 1.0
En los modelos pequeños (0.8B~9B) el razonamiento viene desactivado por defecto
- Para activarlo, usar --chat-template-kwargs '{"enable_thinking":true}'

Tutorial de ejecución e inferencia

Todos los modelos se ofrecen en versión Dynamic 4-bit MXFP4_MOE GGUF
Procedimiento de inferencia local con llama.cpp
- Instalar la versión más reciente desde GitHub y elegir GPU/CPU con la opción -DGGML_CUDA
- Descargar el modelo desde Hugging Face (hf download unsloth/Qwen3.5-XXB-GGUF)
- Ejecutarlo con los comandos llama-cli o llama-server
También puede ejecutarse en LM Studio
- Buscar el modelo y descargar el GGUF, luego activar el toggle de Thinking con un archivo YAML
- Tras reiniciar, se puede usar la función de alternancia

Resumen de ejecución por modelo

Qwen3.5-35B-A3B: inferencia rápida con Dynamic 4-bit en 24 GB de RAM/Mac
Qwen3.5-27B: puede ejecutarse con 18 GB de RAM/Mac
Qwen3.5-122B-A10B: funciona en un entorno Mac con 70 GB de RAM
Qwen3.5-397B-A17B:
- 3-bit: requiere 192 GB de RAM; 4-bit: 256 GB de RAM
- Con una combinación de GPU de 24 GB + 256 GB de RAM genera más de 25 tokens por segundo
- Rendimiento similar al de Gemini 3 Pro, Claude Opus 4.5 y GPT-5.2

Servidor de inferencia e integración con API

Puede desplegarse como una API compatible con OpenAI mediante llama-server
- Se pueden enviar solicitudes al servidor local con la librería de Python openai
- Ejemplo: usar el endpoint "http://127.0.0.1:8001/v1";
Admite la función de Tool Calling
- Permite llamadas a funciones para ejecutar código Python, comandos de terminal, operaciones matemáticas, etc.
- Se ofrece un ejemplo de código unsloth_inference()

Resultados de benchmark

Benchmark de Unsloth GGUF
- La cuantización Dynamic de Qwen3.5-35B logra rendimiento SOTA en la mayoría de los rangos de bits
- Más de 150 pruebas de KL Divergence y un total de 9 TB de datos GGUF utilizados
- Mejor rendimiento sobre la frontera de Pareto en 99.9% KLD
Qwen3.5-397B-A17B
- En pruebas de terceros de Benjamin Marie:
  - original 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
  - caída de precisión de menos de 1 punto y ahorro de memoria de unos 500 GB
- Q3 se presenta como opción para ahorrar memoria y Q4 como opción más estable

Otras funciones

Se proporcionan comandos para activar/desactivar Reasoning (--chat-template-kwargs)
Puede integrarse con Claude Code / OpenAI Codex
Es posible configurar llamadas de herramientas de LLM local mediante la Tool Calling Guide
No es compatible con Ollama; solo admite backends basados en llama.cpp

2 comentarios

tensun 2026-03-09

La uso en una HX370 con 27B y los resultados son bastante buenos.

GN⁺ 2026-03-09

Comentarios de Hacker News

Probé Qwen3.5 9B en una ASUS 5070ti 16G con LM Studio, y funciona de forma muy estable a unos 100 tok/s
Es más rápido que la mayoría de los servicios LLM en línea, y la calidad de salida coincide con el nivel de los benchmarks
Es la primera vez que veo correr un modelo realmente utilizable en hardware de consumo
- Me da curiosidad si “mejor que los servicios en línea” se refiere a la velocidad, o a una comparación de la calidad del modelo en sí
  No creo que se refiera a una comparación de usabilidad con modelos de gama alta como Sonnet u Opus
- Me pregunto qué tan buena es la longitud de context y el rendimiento con esta configuración
  Para tareas de programación necesito al menos 100k de contexto
- ¿Por casualidad ya resolvieron el problema de Thinking mode?
  A mí se me iba a un bucle infinito, así que lo desactivé, y no se arregló aunque cambié varios parámetros
- Si cuantizas Qwen3.5 27B a 4bit, cabe en 16G de VRAM
  La calidad está al nivel de Sonnet 4.0 del verano de 2025, y en ik_llama.cpp la velocidad también es muy buena
- ¿Lo usas integrado con Claude Code?
  La orquestación parece bastante importante
Dice “All uploads use Unsloth Dynamic 2.0”, pero en las opciones reales aparecen varias como IQ4_XS, Q4_K_S, Q4_K_M, etc.
Es confuso porque no hay una explicación de los trade-offs de cada una
En una Mac mini M4 16GB uso sobre todo Qwen3-4B-Instruct-2507-Q4_K_M, pero Qwen3.5-4B-UD-Q4_K_XL es mucho más hablador
Las necesidades varían según cada usuario, pero estaría bueno tener una tabla que resuma configuraciones y uso de memoria por modelo/hardware
Incluso en Reddit casi no hay ejemplos de configuración concretos
Llevo 3 meses siguiendo este tema, y hasta ahora hay más confusión que información clara
Por ahora uso el coder-model de qwen CLI en la nube, mientras espero que salga algún modelo local de bajo consumo
- El benchmark GGUF de Unsloth para Qwen3.5 puede servir
  Tiene una comparación de KL Divergence por espacio en disco entre Q4_K_XL y Q4_K_M
  Q4_0 y Q4_1 son más rápidos, pero ahora ya no se recomiendan porque pierden precisión
  Q4_K_M y UD-Q4_K_XL son casi iguales, aunque _XL es un poco más grande
- LocalScore.ai es un sitio creado por Mozilla Builders que apunta a ese tipo de mapeo entre modelo y hardware
  Pero todavía no tiene datos relacionados con Qwen3.5
- Probé ollama con qwen3.5:4b en una Mac M1; las llamadas a herramientas funcionaban bien, pero era lento y se confundía en tareas complejas
  Puede que tenga que ver con que estaba trabajando con código Rust
  Cuando corrí qwen3.5-35b-a3b cuantizado a 6bit en una 4090, los resultados fueron bastante buenos
  Ahora uso qwen3.5-27b en 8bit como motor principal y estoy satisfecho
- También vale la pena revisar la guía para elegir cuantización de modelos
Cada vez que sale un nuevo modelo abierto, pruebo las velocidades de PP (procesamiento del prompt) y TG (generación de tokens) con llama-cpp/server
Hice pruebas en un MacBook M1 Max 64GB con entorno Claude Code (15~30K de contexto)
Qwen3.5-30B-A3B tiene una velocidad de TG de aproximadamente la mitad que Qwen3-30B-A3B
Qwen3.5 usa menos RAM gracias a sliding window attention y la calidad de respuesta es buena, pero a 33k de contexto se vuelve lento
Los detalles de configuración están resumidos en este documento
En benchmarks personales tomé la API de DeepSeek como referencia y evalué con Claude Opus
Qwen3.5 35B A3B (q8_0, thinking) llegó a 92.5%, y Q4_K_M(thinking) a alrededor de 90%
Me sorprendió, porque esperaba que el modelo dense de 27B saliera mejor
Eso sí, esta cifra se basa en evaluación de respuestas one-shot, así que no refleja escenarios iterativos de agente
- Es interesante que 35B A3B haya salido por encima de 27B
  Puede que alguna inconsistencia lógica en el prompt haya interferido con el razonamiento de 27B
  Si miras el thinking trace, quizá se pueda depurar la causa
- También me pregunto si existe algún modelo thinking que casi no aumente la latencia
Probé Qwen3.5 9B en CPU para OCR y limpieza de texto, y la verdad es bastante usable
Eso sí, como el offloading a GPU no funcionaba bien, en una 1650 Ti con 4GB de VRAM me daba error por falta de memoria
- A mí me pasó lo mismo, pero se arregló con una actualización de drivers
  Lo hice con el comando sudo apt install nvidia-driver-570
- En una combinación de 1660ti + cachyos + llama.cpp-cuda funciona bien
  El modelo de 35B corre a una velocidad parecida al de 4B, pero es mucho más potente
  Eso sí, qwen3.5 va a la mitad de velocidad que qwen3
  Aun así, en general estoy satisfecho
- Si compilas desde código fuente, el backend Vulkan es lo más sencillo para hacer offloading a GPU
Estoy corriendo bien Qwen3.5:0.8b solo con CPU en una Orangepi Zero 2w
Cuando quiero usar GPU con Vulkan, ejecuto qwen3.5:2b en un Meta Quest 3 con zeroclaw
Gracias a eso me ahorré varios cientos de dólares en entornos de bajo consumo
Recomiendo probar modelos locales en un teléfono Android usado
Me pregunto si hay algún lugar que ofrezca el modelo 9B como servicio alojado
En mi entorno empresarial es difícil alquilar GPU, y OpenRouter no tiene modelos pequeños
Estaría bueno que apareciera una plantilla serverless de runpod
También quisiera saber si el modelo 9B puede correr con baja latencia en una 4090 a 8bit o 6bit
Probé Qwen3.5 35B-A3B en una RTX 3050 de 8GB, y respondió bastante bien además de manejar tareas de programación sin problema
La versión anterior tenía un problema de bucles al usar herramientas, pero parece que la versión nueva lo corrigió
- Me pregunto si hace offloading a la RAM del sistema
  También me gustaría saber cuántos tok/s da
  Parece que incluso en una laptop con RTX 3060 podría ir bien como servidor local
- Me pregunto qué ejemplos de tareas de programación probaste
  No esperaba que un modelo local rindiera tan bien
- ¿Podrías decir exactamente qué nombre de modelo usaste?
Me pregunto cómo se compara el modelo 397B-A17B con Frontier
Probablemente requiera un nivel de hardware que la mayoría no va a poder correr
- Lo probé a través de OpenRouter, y es muy bueno, pero en algunas tareas Frontier sigue siendo superior
  Personalmente, el modelo 122B me parece más que suficiente en términos de privacidad y ahorro de costos
Me pregunto si este modelo podría correr en un servidor viejo con 4xV100 Tesla
La configuración relacionada con fp es complicada, así que para alguien principiante es difícil de entender

Guía para ejecutar Qwen3.5 localmente

Resumen de Qwen3.5

Requisitos de hardware

Valores de configuración recomendados

Tutorial de ejecución e inferencia

Resumen de ejecución por modelo

Servidor de inferencia e integración con API

Resultados de benchmark

Otras funciones

Lecturas relacionadas

2 comentarios

Comentarios de Hacker News