- La familia de modelos Qwen3.5 de Alibaba ofrece varios tamaños, desde 0.8B hasta 397B, y admite razonamiento híbrido multimodal y contexto de 256K
- Unsloth ofrece todos los modelos Qwen3.5 con cuantización Dynamic 2.0 GGUF, y pueden ejecutarse localmente mediante llama.cpp o LM Studio
- Se puede alternar entre el modo thinking y el modo non-thinking, y los modelos pequeños (0.8B~9B) vienen configurados por defecto en modo non-thinking
- Se especifican la capacidad de RAM/VRAM necesaria y los valores de configuración recomendados (temperature, top_p, etc.) para cada modelo, y los modelos 27B y 35B pueden ejecutarse incluso en un entorno Mac de 22 GB
- Unsloth GGUF mejora el rendimiento aplicando algoritmos de cuantización mejorados y datos imatrix, pero no es compatible con Ollama
Resumen de Qwen3.5
- Qwen3.5 es una nueva serie de LLM publicada por Alibaba, que incluye desde 0.8B, 2B, 4B y 9B (pequeños) hasta 27B, 35B, 122B y 397B (grandes)
- Admite razonamiento híbrido multimodal y procesa 201 idiomas y una longitud de contexto de 256K
- Muestra alto rendimiento en codificación con agentes, visión, conversación y tareas con contexto extenso
- Los modelos 35B y 27B pueden ejecutarse incluso en una Mac con 22 GB de RAM
- Todos los archivos GGUF usan algoritmos de cuantización mejorados y nuevos datos imatrix
- Mejoras de rendimiento en chat, código, contexto largo y llamadas de herramientas (tool-calling)
- Las capas MXFP4 se eliminaron en algunos GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)
Requisitos de hardware
- La tabla indica los requisitos mínimos de memoria según el tamaño del modelo
- Ejemplo: los modelos de 0.8B~2B requieren 3 GB, 9B requiere 5.5 GB (base 3-bit), y 35B-A3B requiere 17 GB
- 397B-A17B requiere 180 GB en 3-bit y 214 GB en 4-bit
- La memoria total (RAM+VRAM) debe ser mayor que el tamaño del archivo del modelo para lograr un rendimiento óptimo
- Si no alcanza, puede ejecutarse mediante offloading a SSD/HDD, aunque con una reducción de velocidad
- 27B es la opción enfocada en precisión, mientras que 35B-A3B prioriza la velocidad
Valores de configuración recomendados
- Ventana de contexto máxima: 262,144 (ampliable hasta 1M con YaRN)
- presence_penalty: 0.0~2.0 (para reducir repeticiones; cuanto más alto, puede bajar ligeramente el rendimiento)
- Longitud de salida: se recomiendan 32,768 tokens
- Los valores cambian según el modo Thinking o Non-thinking
- Modo Thinking: para tareas generales, temperature=1.0; para código, 0.6
- Modo Non-thinking: para tareas generales, temperature=0.7; para tareas de razonamiento, 1.0
- En los modelos pequeños (0.8B~9B) el razonamiento viene desactivado por defecto
- Para activarlo, usar
--chat-template-kwargs '{"enable_thinking":true}'
Tutorial de ejecución e inferencia
- Todos los modelos se ofrecen en versión Dynamic 4-bit MXFP4_MOE GGUF
- Procedimiento de inferencia local con llama.cpp
- Instalar la versión más reciente desde GitHub y elegir GPU/CPU con la opción
-DGGML_CUDA
- Descargar el modelo desde Hugging Face (
hf download unsloth/Qwen3.5-XXB-GGUF)
- Ejecutarlo con los comandos
llama-cli o llama-server
- También puede ejecutarse en LM Studio
- Buscar el modelo y descargar el GGUF, luego activar el toggle de Thinking con un archivo YAML
- Tras reiniciar, se puede usar la función de alternancia
Resumen de ejecución por modelo
- Qwen3.5-35B-A3B: inferencia rápida con Dynamic 4-bit en 24 GB de RAM/Mac
- Qwen3.5-27B: puede ejecutarse con 18 GB de RAM/Mac
- Qwen3.5-122B-A10B: funciona en un entorno Mac con 70 GB de RAM
- Qwen3.5-397B-A17B:
- 3-bit: requiere 192 GB de RAM; 4-bit: 256 GB de RAM
- Con una combinación de GPU de 24 GB + 256 GB de RAM genera más de 25 tokens por segundo
- Rendimiento similar al de Gemini 3 Pro, Claude Opus 4.5 y GPT-5.2
Servidor de inferencia e integración con API
- Puede desplegarse como una API compatible con OpenAI mediante
llama-server
- Admite la función de Tool Calling
- Permite llamadas a funciones para ejecutar código Python, comandos de terminal, operaciones matemáticas, etc.
- Se ofrece un ejemplo de código
unsloth_inference()
Resultados de benchmark
- Benchmark de Unsloth GGUF
- La cuantización Dynamic de Qwen3.5-35B logra rendimiento SOTA en la mayoría de los rangos de bits
- Más de 150 pruebas de KL Divergence y un total de 9 TB de datos GGUF utilizados
- Mejor rendimiento sobre la frontera de Pareto en 99.9% KLD
- Qwen3.5-397B-A17B
- En pruebas de terceros de Benjamin Marie:
- original 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
- caída de precisión de menos de 1 punto y ahorro de memoria de unos 500 GB
- Q3 se presenta como opción para ahorrar memoria y Q4 como opción más estable
Otras funciones
- Se proporcionan comandos para activar/desactivar Reasoning (
--chat-template-kwargs)
- Puede integrarse con Claude Code / OpenAI Codex
- Es posible configurar llamadas de herramientas de LLM local mediante la Tool Calling Guide
- No es compatible con Ollama; solo admite backends basados en llama.cpp
2 comentarios
La uso en una HX370 con 27B y los resultados son bastante buenos.
Comentarios de Hacker News
Probé Qwen3.5 9B en una ASUS 5070ti 16G con LM Studio, y funciona de forma muy estable a unos 100 tok/s
Es más rápido que la mayoría de los servicios LLM en línea, y la calidad de salida coincide con el nivel de los benchmarks
Es la primera vez que veo correr un modelo realmente utilizable en hardware de consumo
No creo que se refiera a una comparación de usabilidad con modelos de gama alta como Sonnet u Opus
Para tareas de programación necesito al menos 100k de contexto
A mí se me iba a un bucle infinito, así que lo desactivé, y no se arregló aunque cambié varios parámetros
La calidad está al nivel de Sonnet 4.0 del verano de 2025, y en ik_llama.cpp la velocidad también es muy buena
La orquestación parece bastante importante
Dice “All uploads use Unsloth Dynamic 2.0”, pero en las opciones reales aparecen varias como IQ4_XS, Q4_K_S, Q4_K_M, etc.
Es confuso porque no hay una explicación de los trade-offs de cada una
En una Mac mini M4 16GB uso sobre todo Qwen3-4B-Instruct-2507-Q4_K_M, pero Qwen3.5-4B-UD-Q4_K_XL es mucho más hablador
Las necesidades varían según cada usuario, pero estaría bueno tener una tabla que resuma configuraciones y uso de memoria por modelo/hardware
Incluso en Reddit casi no hay ejemplos de configuración concretos
Llevo 3 meses siguiendo este tema, y hasta ahora hay más confusión que información clara
Por ahora uso el coder-model de qwen CLI en la nube, mientras espero que salga algún modelo local de bajo consumo
Tiene una comparación de KL Divergence por espacio en disco entre Q4_K_XL y Q4_K_M
Q4_0 y Q4_1 son más rápidos, pero ahora ya no se recomiendan porque pierden precisión
Q4_K_M y UD-Q4_K_XL son casi iguales, aunque _XL es un poco más grande
Pero todavía no tiene datos relacionados con Qwen3.5
Puede que tenga que ver con que estaba trabajando con código Rust
Cuando corrí qwen3.5-35b-a3b cuantizado a 6bit en una 4090, los resultados fueron bastante buenos
Ahora uso qwen3.5-27b en 8bit como motor principal y estoy satisfecho
Cada vez que sale un nuevo modelo abierto, pruebo las velocidades de PP (procesamiento del prompt) y TG (generación de tokens) con llama-cpp/server
Hice pruebas en un MacBook M1 Max 64GB con entorno Claude Code (15~30K de contexto)
Qwen3.5-30B-A3B tiene una velocidad de TG de aproximadamente la mitad que Qwen3-30B-A3B
Qwen3.5 usa menos RAM gracias a sliding window attention y la calidad de respuesta es buena, pero a 33k de contexto se vuelve lento
Los detalles de configuración están resumidos en este documento
En benchmarks personales tomé la API de DeepSeek como referencia y evalué con Claude Opus
Qwen3.5 35B A3B (q8_0, thinking) llegó a 92.5%, y Q4_K_M(thinking) a alrededor de 90%
Me sorprendió, porque esperaba que el modelo dense de 27B saliera mejor
Eso sí, esta cifra se basa en evaluación de respuestas one-shot, así que no refleja escenarios iterativos de agente
Puede que alguna inconsistencia lógica en el prompt haya interferido con el razonamiento de 27B
Si miras el thinking trace, quizá se pueda depurar la causa
Probé Qwen3.5 9B en CPU para OCR y limpieza de texto, y la verdad es bastante usable
Eso sí, como el offloading a GPU no funcionaba bien, en una 1650 Ti con 4GB de VRAM me daba error por falta de memoria
Lo hice con el comando
sudo apt install nvidia-driver-570El modelo de 35B corre a una velocidad parecida al de 4B, pero es mucho más potente
Eso sí, qwen3.5 va a la mitad de velocidad que qwen3
Aun así, en general estoy satisfecho
Estoy corriendo bien Qwen3.5:0.8b solo con CPU en una Orangepi Zero 2w
Cuando quiero usar GPU con Vulkan, ejecuto qwen3.5:2b en un Meta Quest 3 con zeroclaw
Gracias a eso me ahorré varios cientos de dólares en entornos de bajo consumo
Recomiendo probar modelos locales en un teléfono Android usado
Me pregunto si hay algún lugar que ofrezca el modelo 9B como servicio alojado
En mi entorno empresarial es difícil alquilar GPU, y OpenRouter no tiene modelos pequeños
Estaría bueno que apareciera una plantilla serverless de runpod
También quisiera saber si el modelo 9B puede correr con baja latencia en una 4090 a 8bit o 6bit
Probé Qwen3.5 35B-A3B en una RTX 3050 de 8GB, y respondió bastante bien además de manejar tareas de programación sin problema
La versión anterior tenía un problema de bucles al usar herramientas, pero parece que la versión nueva lo corrigió
También me gustaría saber cuántos tok/s da
Parece que incluso en una laptop con RTX 3060 podría ir bien como servidor local
No esperaba que un modelo local rindiera tan bien
Me pregunto cómo se compara el modelo 397B-A17B con Frontier
Probablemente requiera un nivel de hardware que la mayoría no va a poder correr
Personalmente, el modelo 122B me parece más que suficiente en términos de privacidad y ahorro de costos
Me pregunto si este modelo podría correr en un servidor viejo con 4xV100 Tesla
La configuración relacionada con fp es complicada, así que para alguien principiante es difícil de entender