33 puntos por GN⁺ 2026-03-09 | 2 comentarios | Compartir por WhatsApp
  • La familia de modelos Qwen3.5 de Alibaba ofrece varios tamaños, desde 0.8B hasta 397B, y admite razonamiento híbrido multimodal y contexto de 256K
  • Unsloth ofrece todos los modelos Qwen3.5 con cuantización Dynamic 2.0 GGUF, y pueden ejecutarse localmente mediante llama.cpp o LM Studio
  • Se puede alternar entre el modo thinking y el modo non-thinking, y los modelos pequeños (0.8B~9B) vienen configurados por defecto en modo non-thinking
  • Se especifican la capacidad de RAM/VRAM necesaria y los valores de configuración recomendados (temperature, top_p, etc.) para cada modelo, y los modelos 27B y 35B pueden ejecutarse incluso en un entorno Mac de 22 GB
  • Unsloth GGUF mejora el rendimiento aplicando algoritmos de cuantización mejorados y datos imatrix, pero no es compatible con Ollama

Resumen de Qwen3.5

  • Qwen3.5 es una nueva serie de LLM publicada por Alibaba, que incluye desde 0.8B, 2B, 4B y 9B (pequeños) hasta 27B, 35B, 122B y 397B (grandes)
    • Admite razonamiento híbrido multimodal y procesa 201 idiomas y una longitud de contexto de 256K
    • Muestra alto rendimiento en codificación con agentes, visión, conversación y tareas con contexto extenso
  • Los modelos 35B y 27B pueden ejecutarse incluso en una Mac con 22 GB de RAM
  • Todos los archivos GGUF usan algoritmos de cuantización mejorados y nuevos datos imatrix
    • Mejoras de rendimiento en chat, código, contexto largo y llamadas de herramientas (tool-calling)
    • Las capas MXFP4 se eliminaron en algunos GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)

Requisitos de hardware

  • La tabla indica los requisitos mínimos de memoria según el tamaño del modelo
    • Ejemplo: los modelos de 0.8B~2B requieren 3 GB, 9B requiere 5.5 GB (base 3-bit), y 35B-A3B requiere 17 GB
    • 397B-A17B requiere 180 GB en 3-bit y 214 GB en 4-bit
  • La memoria total (RAM+VRAM) debe ser mayor que el tamaño del archivo del modelo para lograr un rendimiento óptimo
    • Si no alcanza, puede ejecutarse mediante offloading a SSD/HDD, aunque con una reducción de velocidad
  • 27B es la opción enfocada en precisión, mientras que 35B-A3B prioriza la velocidad

Valores de configuración recomendados

  • Ventana de contexto máxima: 262,144 (ampliable hasta 1M con YaRN)
  • presence_penalty: 0.0~2.0 (para reducir repeticiones; cuanto más alto, puede bajar ligeramente el rendimiento)
  • Longitud de salida: se recomiendan 32,768 tokens
  • Los valores cambian según el modo Thinking o Non-thinking
    • Modo Thinking: para tareas generales, temperature=1.0; para código, 0.6
    • Modo Non-thinking: para tareas generales, temperature=0.7; para tareas de razonamiento, 1.0
  • En los modelos pequeños (0.8B~9B) el razonamiento viene desactivado por defecto
    • Para activarlo, usar --chat-template-kwargs '{"enable_thinking":true}'

Tutorial de ejecución e inferencia

  • Todos los modelos se ofrecen en versión Dynamic 4-bit MXFP4_MOE GGUF
  • Procedimiento de inferencia local con llama.cpp
    • Instalar la versión más reciente desde GitHub y elegir GPU/CPU con la opción -DGGML_CUDA
    • Descargar el modelo desde Hugging Face (hf download unsloth/Qwen3.5-XXB-GGUF)
    • Ejecutarlo con los comandos llama-cli o llama-server
  • También puede ejecutarse en LM Studio
    • Buscar el modelo y descargar el GGUF, luego activar el toggle de Thinking con un archivo YAML
    • Tras reiniciar, se puede usar la función de alternancia

Resumen de ejecución por modelo

  • Qwen3.5-35B-A3B: inferencia rápida con Dynamic 4-bit en 24 GB de RAM/Mac
  • Qwen3.5-27B: puede ejecutarse con 18 GB de RAM/Mac
  • Qwen3.5-122B-A10B: funciona en un entorno Mac con 70 GB de RAM
  • Qwen3.5-397B-A17B:
    • 3-bit: requiere 192 GB de RAM; 4-bit: 256 GB de RAM
    • Con una combinación de GPU de 24 GB + 256 GB de RAM genera más de 25 tokens por segundo
    • Rendimiento similar al de Gemini 3 Pro, Claude Opus 4.5 y GPT-5.2

Servidor de inferencia e integración con API

  • Puede desplegarse como una API compatible con OpenAI mediante llama-server
    • Se pueden enviar solicitudes al servidor local con la librería de Python openai
    • Ejemplo: usar el endpoint "http://127.0.0.1:8001/v1";
  • Admite la función de Tool Calling
    • Permite llamadas a funciones para ejecutar código Python, comandos de terminal, operaciones matemáticas, etc.
    • Se ofrece un ejemplo de código unsloth_inference()

Resultados de benchmark

  • Benchmark de Unsloth GGUF
    • La cuantización Dynamic de Qwen3.5-35B logra rendimiento SOTA en la mayoría de los rangos de bits
    • Más de 150 pruebas de KL Divergence y un total de 9 TB de datos GGUF utilizados
    • Mejor rendimiento sobre la frontera de Pareto en 99.9% KLD
  • Qwen3.5-397B-A17B
    • En pruebas de terceros de Benjamin Marie:
      • original 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
      • caída de precisión de menos de 1 punto y ahorro de memoria de unos 500 GB
    • Q3 se presenta como opción para ahorrar memoria y Q4 como opción más estable

Otras funciones

  • Se proporcionan comandos para activar/desactivar Reasoning (--chat-template-kwargs)
  • Puede integrarse con Claude Code / OpenAI Codex
  • Es posible configurar llamadas de herramientas de LLM local mediante la Tool Calling Guide
  • No es compatible con Ollama; solo admite backends basados en llama.cpp

2 comentarios

 
tensun 2026-03-09

La uso en una HX370 con 27B y los resultados son bastante buenos.

 
GN⁺ 2026-03-09
Comentarios de Hacker News
  • Probé Qwen3.5 9B en una ASUS 5070ti 16G con LM Studio, y funciona de forma muy estable a unos 100 tok/s
    Es más rápido que la mayoría de los servicios LLM en línea, y la calidad de salida coincide con el nivel de los benchmarks
    Es la primera vez que veo correr un modelo realmente utilizable en hardware de consumo

    • Me da curiosidad si “mejor que los servicios en línea” se refiere a la velocidad, o a una comparación de la calidad del modelo en sí
      No creo que se refiera a una comparación de usabilidad con modelos de gama alta como Sonnet u Opus
    • Me pregunto qué tan buena es la longitud de context y el rendimiento con esta configuración
      Para tareas de programación necesito al menos 100k de contexto
    • ¿Por casualidad ya resolvieron el problema de Thinking mode?
      A mí se me iba a un bucle infinito, así que lo desactivé, y no se arregló aunque cambié varios parámetros
    • Si cuantizas Qwen3.5 27B a 4bit, cabe en 16G de VRAM
      La calidad está al nivel de Sonnet 4.0 del verano de 2025, y en ik_llama.cpp la velocidad también es muy buena
    • ¿Lo usas integrado con Claude Code?
      La orquestación parece bastante importante
  • Dice “All uploads use Unsloth Dynamic 2.0”, pero en las opciones reales aparecen varias como IQ4_XS, Q4_K_S, Q4_K_M, etc.
    Es confuso porque no hay una explicación de los trade-offs de cada una
    En una Mac mini M4 16GB uso sobre todo Qwen3-4B-Instruct-2507-Q4_K_M, pero Qwen3.5-4B-UD-Q4_K_XL es mucho más hablador
    Las necesidades varían según cada usuario, pero estaría bueno tener una tabla que resuma configuraciones y uso de memoria por modelo/hardware
    Incluso en Reddit casi no hay ejemplos de configuración concretos
    Llevo 3 meses siguiendo este tema, y hasta ahora hay más confusión que información clara
    Por ahora uso el coder-model de qwen CLI en la nube, mientras espero que salga algún modelo local de bajo consumo

    • El benchmark GGUF de Unsloth para Qwen3.5 puede servir
      Tiene una comparación de KL Divergence por espacio en disco entre Q4_K_XL y Q4_K_M
      Q4_0 y Q4_1 son más rápidos, pero ahora ya no se recomiendan porque pierden precisión
      Q4_K_M y UD-Q4_K_XL son casi iguales, aunque _XL es un poco más grande
    • LocalScore.ai es un sitio creado por Mozilla Builders que apunta a ese tipo de mapeo entre modelo y hardware
      Pero todavía no tiene datos relacionados con Qwen3.5
    • Probé ollama con qwen3.5:4b en una Mac M1; las llamadas a herramientas funcionaban bien, pero era lento y se confundía en tareas complejas
      Puede que tenga que ver con que estaba trabajando con código Rust
      Cuando corrí qwen3.5-35b-a3b cuantizado a 6bit en una 4090, los resultados fueron bastante buenos
      Ahora uso qwen3.5-27b en 8bit como motor principal y estoy satisfecho
    • También vale la pena revisar la guía para elegir cuantización de modelos
  • Cada vez que sale un nuevo modelo abierto, pruebo las velocidades de PP (procesamiento del prompt) y TG (generación de tokens) con llama-cpp/server
    Hice pruebas en un MacBook M1 Max 64GB con entorno Claude Code (15~30K de contexto)
    Qwen3.5-30B-A3B tiene una velocidad de TG de aproximadamente la mitad que Qwen3-30B-A3B
    Qwen3.5 usa menos RAM gracias a sliding window attention y la calidad de respuesta es buena, pero a 33k de contexto se vuelve lento
    Los detalles de configuración están resumidos en este documento

  • En benchmarks personales tomé la API de DeepSeek como referencia y evalué con Claude Opus
    Qwen3.5 35B A3B (q8_0, thinking) llegó a 92.5%, y Q4_K_M(thinking) a alrededor de 90%
    Me sorprendió, porque esperaba que el modelo dense de 27B saliera mejor
    Eso sí, esta cifra se basa en evaluación de respuestas one-shot, así que no refleja escenarios iterativos de agente

    • Es interesante que 35B A3B haya salido por encima de 27B
      Puede que alguna inconsistencia lógica en el prompt haya interferido con el razonamiento de 27B
      Si miras el thinking trace, quizá se pueda depurar la causa
    • También me pregunto si existe algún modelo thinking que casi no aumente la latencia
  • Probé Qwen3.5 9B en CPU para OCR y limpieza de texto, y la verdad es bastante usable
    Eso sí, como el offloading a GPU no funcionaba bien, en una 1650 Ti con 4GB de VRAM me daba error por falta de memoria

    • A mí me pasó lo mismo, pero se arregló con una actualización de drivers
      Lo hice con el comando sudo apt install nvidia-driver-570
    • En una combinación de 1660ti + cachyos + llama.cpp-cuda funciona bien
      El modelo de 35B corre a una velocidad parecida al de 4B, pero es mucho más potente
      Eso sí, qwen3.5 va a la mitad de velocidad que qwen3
      Aun así, en general estoy satisfecho
    • Si compilas desde código fuente, el backend Vulkan es lo más sencillo para hacer offloading a GPU
  • Estoy corriendo bien Qwen3.5:0.8b solo con CPU en una Orangepi Zero 2w
    Cuando quiero usar GPU con Vulkan, ejecuto qwen3.5:2b en un Meta Quest 3 con zeroclaw
    Gracias a eso me ahorré varios cientos de dólares en entornos de bajo consumo
    Recomiendo probar modelos locales en un teléfono Android usado

  • Me pregunto si hay algún lugar que ofrezca el modelo 9B como servicio alojado
    En mi entorno empresarial es difícil alquilar GPU, y OpenRouter no tiene modelos pequeños
    Estaría bueno que apareciera una plantilla serverless de runpod
    También quisiera saber si el modelo 9B puede correr con baja latencia en una 4090 a 8bit o 6bit

  • Probé Qwen3.5 35B-A3B en una RTX 3050 de 8GB, y respondió bastante bien además de manejar tareas de programación sin problema
    La versión anterior tenía un problema de bucles al usar herramientas, pero parece que la versión nueva lo corrigió

    • Me pregunto si hace offloading a la RAM del sistema
      También me gustaría saber cuántos tok/s da
      Parece que incluso en una laptop con RTX 3060 podría ir bien como servidor local
    • Me pregunto qué ejemplos de tareas de programación probaste
      No esperaba que un modelo local rindiera tan bien
    • ¿Podrías decir exactamente qué nombre de modelo usaste?
  • Me pregunto cómo se compara el modelo 397B-A17B con Frontier
    Probablemente requiera un nivel de hardware que la mayoría no va a poder correr

    • Lo probé a través de OpenRouter, y es muy bueno, pero en algunas tareas Frontier sigue siendo superior
      Personalmente, el modelo 122B me parece más que suficiente en términos de privacidad y ahorro de costos
  • Me pregunto si este modelo podría correr en un servidor viejo con 4xV100 Tesla
    La configuración relacionada con fp es complicada, así que para alguien principiante es difícil de entender