Cómo ejecutar GLM-5.2 en local
(unsloth.ai)- El nuevo modelo abierto GLM-5.2 de Z.ai destaca por ser un caso de uso de un modelo grande manejado en hardware local, con 744B parámetros, 40B parámetros activos y una ventana de contexto de 1M
- Unsloth ofrece una ruta de ejecución local con Dynamic GGUF, y la quant recomendada de 2-bit
UD-IQ2_Mrequiere 239GB de disco y un entorno de al menos 245GB de RAM - Dynamic 1-bit muestra alrededor de 76.2% top-1 accuracy y una reducción de tamaño del 86%, mientras que Dynamic 2-bit muestra cerca de 82% de accuracy y una reducción del 84%, lo que contradice la interpretación de que “el rendimiento empeora en la misma proporción en que se reduce el tamaño”
- Hay dos formas de ejecutarlo: Unsloth Studio y
llama.cpp; Studio soporta búsqueda, descarga y ejecución del modelo en MacOS, Windows y Linux, además de RAM offloading y detección de multiGPU - Para usar realmente contextos largos, hay que reducir memoria con KV cache quantization de
llama.cpp;q4_0permite un contexto unas 3.5 veces más largo yq4_1unas 3.2 veces más largo
Resumen del modelo GLM-5.2
- GLM-5.2 es el nuevo modelo abierto de Z.ai y puede ejecutarse en hardware local mediante Unsloth Dynamic GGUF
- Las especificaciones del modelo son las siguientes
- Parámetros totales: 744B
- Parámetros activos: 40B
- Ventana de contexto máxima: 1,048,576
- Se presenta como un modelo con rendimiento SOTA en long-horizon coding, razonamiento y agentic tasks
- Según Artificial Analysis y varios benchmarks, tendría un rendimiento al nivel de Claude 4.8 Opus, GPT-5.5 y Gemini 3.1 Pro
- Unsloth indicó que recibió day-zero access por parte de Z.ai
- Los archivos GGUF para GLM-5.2 pueden descargarse desde Hugging Face en GLM-5.2-GGUF
Quant recomendada y requisitos de memoria
- Para equilibrar accesibilidad y precisión, se recomienda usar la 2-bit dynamic quant
UD-IQ2_M- Uso de disco: 239GB
- Cabe directamente en una Mac con 256GB de memoria unificada
- Con MoE offloading, se indica que funciona bien incluso con 1x24GB GPU + 256GB RAM
- La quant de 1-bit cabe en 223GB RAM, mientras que la de 8-bit requiere 810GB RAM
- En la tabla de requisitos de hardware para inferencia, la memoria total significa RAM + VRAM o memoria unificada
- Las cifras de memoria total mostradas son: 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
- Para obtener el mejor rendimiento, la memoria disponible entre VRAM y RAM del sistema debe superar con holgura el quantized model file size
Modo Thinking y configuración de sampling
- GLM-5.2 ofrece 3 thinking modes
- non-thinking
- thinking High
- thinking Max
- Para tareas complejas, se recomienda usar Max Thinking
- En Unsloth Studio, se puede alternar entre High/Max Thinking y non-Thinking desde la interfaz
- La configuración sugerida para la mayoría de los casos de uso es la siguiente
temperature = 1.0top_p = 0.95- En otros modos,
top_p = 1.0
- GLM-5.2 usa razonamiento por defecto, y
reasoning_effortpuede fijarse en"high","max"o desactivarse - Ejemplos para desactivar thinking
- Shell común:
--chat-template-kwargs '{"enable_thinking":false}' - Windows PowerShell:
--chat-template-kwargs "{\"enable_thinking\":false}"
- Shell común:
- En
llama.cpptambién se puede usar--reasoning ono--reasoning off - Ejemplos de configuración de reasoning effort
--chat-template-kwargs '{"reasoning_effort":"max"}'--chat-template-kwargs '{"reasoning_effort":"high"}'--chat-template-kwargs '{"enable_thinking":false}'
Precisión de Dynamic GGUF e interpretación de KLD
- Unsloth usa el benchmark de KLD(KL Divergence) para evaluar la precisión de quantization de GLM-5.2-GGUF
- Se indica que Dynamic 4-bit
UD-Q4_K_XLy Dynamic 5-bitUD-Q5_K_XLson en su mayoría lossless - Incluso las quants más pequeñas funcionan con un esquema de asignación dinámica de precisión, donde las capas importantes mantienen mayor precisión y las menos importantes usan pocos bits
- Las cifras basadas en pure top-1% accuracy son las siguientes
- Dynamic 1-bit: alrededor de 76.2% accuracy, 86% de reducción de tamaño
- Dynamic 2-bit: alrededor de 82% accuracy, 84% de reducción de tamaño
- Comparación de accuracy:
- Decir que es 86% más pequeño no significa que sea 86% peor; para Dynamic 1-bit se añade la interpretación de que tiene una precisión aproximadamente 24% menor que el modelo completo de 1.5TB
- “76% accuracy” no significa que, ante una pregunta como “The capital of France is”, elija Paris 76% y Sydney 24%
- En ese ejemplo, se indica que Paris siempre sería 100% y Sydney 0%
- La cifra de 76% también incluye cambios en la distribución de filler words y stop words de todo el corpus
- En prompts como “Create a novel”, donde puede haber varios comienzos correctos, la distribución de tokens entre el modelo base y el modelo quantizado puede diferir
- El baseline podría elegir
[I]con 100%, mientras que el modelo quantizado podría repartir la distribución como[I]76% y[The]24% - Eso no significa que haya un 24% de probabilidad de producir gibberish o una salida incorrecta
- El baseline podría elegir
- KLD es la distancia entre las probabilidades del baseline BF16 o Q8_0 y las de la versión quantizada
- El objetivo de la quantization es minimizar el promedio de KL divergence entre
f(q(W))yf(W) fes el forward del language model,qes la operación de quantization yWson los parámetros o weights del modelo- Si KLD es 0, el modelo se reconstruyó perfectamente
- El objetivo de la quantization es minimizar el promedio de KL divergence entre
- Como ejecutar KLD sobre el corpus completo de entrenamiento de 15T tokens sería costoso, Unsloth optimiza usando mean KLD y muestreo de subconjuntos pequeños representativos
- También se indica que 99.9% KLD suele ser bueno, y que desde 4bit en adelante hay un uplift mayor, por lo que Dynamic 4-bit probablemente sea la opción más adecuada para tareas massive out-of-distribution
Ejecutarlo con Unsloth Studio
- Unsloth Studio es una web UI open source para AI local y soporta la ejecución de GLM-5.2
- Sus funciones principales son las siguientes
- Ejecutar modelos locales en MacOS, Windows y Linux
- Buscar, descargar y ejecutar modelos GGUF y safetensor
- Detección automática de RAM offloading y configuraciones multiGPU
- Inferencia rápida con CPU + GPU mediante
llama.cpp
- Los comandos de instalación son los siguientes
- MacOS, Linux, WSL:
curl -fsSL https://unsloth.ai/install.sh | sh - Windows PowerShell:
irm https://unsloth.ai/install.ps1 | iex
- MacOS, Linux, WSL:
- Los comandos de ejecución son los siguientes
unsloth studio -H 0.0.0.0 -p 8888- Después de ejecutarlo, basta con abrir
http://127.0.0.1:8888en el navegador o la URL específica de cada usuario
- También se ofrece una forma de ejecutar Studio de manera segura con HTTPS
- En Windows, Mac y Linux:
unsloth studio --secure - Usa un Cloudflare tunnel gratuito
- En Windows, Mac y Linux:
- En la primera ejecución hay que crear una password para proteger la cuenta y luego volver a iniciar sesión
- En la pestaña Chat de Studio, hay que buscar
GLM-5.2en el buscador y descargar el modelo y la quant deseados - Antes de ejecutar el modelo, hay que verificar que haya suficiente compute disponible
- En Studio, los inference parameters deberían configurarse automáticamente, aunque el usuario puede cambiar manualmente context length, chat template y otros ajustes
- Más información en la guía de inferencia de Unsloth Studio
Ejecutarlo con llama.cpp
- El tutorial de llama.cpp cubre la ejecución de la quant
UD-IQ2_My requiere un mínimo de 245GB RAM - Para inferencia local rápida se usa llama.cpp
- Si no tienes GPU o quieres solo inferencia en CPU, cambia
-DGGML_CUDA=ONpor-DGGML_CUDA=OFF - En dispositivos Apple Mac / Metal, también se puede continuar con
-DGGML_CUDA=OFF, ya que el soporte Metal viene activado por defecto - El proceso de compilación sigue este flujo
apt-get updateapt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -ygit clone https://github.com/ggml-org/llama.cppcmake ... -DGGML_CUDA=ONcmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-splitcp llama.cpp/build/bin/llama-* llama.cpp
llama.cpppuede usarse para cargar y descargar el modelo directamente, de forma similar aollama run- Como ejemplo de tipo de quantization se elige
UD-IQ2_M, y puede forzarse la ubicación de guardado conexport LLAMA_CACHE="unsloth/GLM-5.2-GGUF" - Se advierte que el proceso de descarga directa de
llama.cpppuede ser muy lento, por lo que se sugiere la descarga manual
Ejemplos de descarga manual y ejecución
- Para una descarga manual más rápida se usa huggingface_hub
pip install huggingface_hubhf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
- Para near full precision puede usarse
--include "*UD-Q8_K_XL*" - Si la descarga se detiene, se recomienda revisar Hugging Face Hub, XET debugging
- El comando de descarga para Dynamic 1-bit es el siguiente
hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
- Las rutas del modelo en conversation mode son las siguientes
- 2-bit:
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf - 1-bit:
unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
- 2-bit:
- El ejemplo de ejecución con
llama-cliusa el primer shard del GGUF de 2-bit en--modely los siguientes parámetros--temp 1.0--top-p 0.95--min-p 0.01
- En el ejemplo de ejecución directa también se usa
-hf unsloth/GLM-5.2-GGUF:UD-IQ2_M
Comportamiento confirmado con un ejemplo de generación
- La documentación incluye un ejemplo donde GLM-5.2 de 2-bit realiza tool-calling y generación de SVG
- Después de ejecutar
llama-cli, sigue un ejemplo pidiendo generar un “short Flappy Bird game” - El juego generado en un solo archivo HTML/JavaScript usa el nombre
Sunset Flier- Incluye
canvas, pantalla de inicio, pantalla de game over, puntaje HUD, botónNEW BEST!y botónRETRY - Genera efectos de sonido
flap,score,hitydiecon Web Audio API sin recursos externos - El estado del juego se gestiona en cuatro etapas:
READY,PLAYING,DYING,OVER - La mejor puntuación se guarda con
localStorage.getItem('sunsetFlierBest')ylocalStorage.setItem()
- Incluye
- La lógica del juego incluye gravedad, impulso de flap, tuberías aleatorias, colisiones, partículas, screen shake y sistema de medallas
GRAVITY = 0.42MAX_FALL = 9PIPE_W = 68PIPE_GAP = 180PIPE_SPEED = 2.6PIPE_SPACING = 220
- La entrada soporta mouse, touch y teclado con
Space,ArrowUpyEnter - Este ejemplo del juego se presenta en el contexto de que también funcionó bien incluso con 1-bit quantization, incluyendo el audio
Contexto largo y KV cache quantization
- Para aprovechar contextos largos en
llama.cpp, hay que reducir el uso de memoria con KV cache quantization llama.cppañadió recientemente técnicas para mejorar la precisión de KV cache quantization; el PR relacionado eshttps://github.com/ggml-org/llama.cpp/pull/21038- Los dtypes soportados para KV cache son los siguientes
f32f16bf16q8_0q4_0q4_1iq4_nlq5_0q5_1
- El valor por defecto es
f16 - Como
q4_0usa alrededor de 4.5 bits por weight, permite aumentar la longitud del contexto en16 / 4.5, es decir, cerca de 3.5 veces- Por ejemplo, un modelo que antes soportaba 10K podría entrar en el rango de hasta 35K
q4_1añade un shifting parameter, por lo que podría rendir mejor, y con 5 bits por weight ofrece alrededor de 3.2 veces más contexto- El ejemplo de ejecución con KV cache quantization especifica el modelo GLM-5.2 GGUF y los parámetros de sampling
- Ruta del modelo:
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0--top-p 0.95--min-p 0.01--cache-type-k q4_1--cache-type-v q4_1
- Ruta del modelo:
Cifras observables en la tabla de benchmarks
- La documentación continúa con una tabla de benchmarks de GLM-5.2, pero en el contenido proporcionado no aparecen los encabezados de columnas, así que no puede verificarse a qué modelo o configuración corresponde cada número
- En los benchmarks de razonamiento aparecen las siguientes filas y cifras
HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
- En los benchmarks de coding aparecen las siguientes filas y cifras
SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
- En los benchmarks agentic aparecen las siguientes filas y cifras
MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8
1 comentarios
Comentarios en Hacker News
Estoy ejecutando Q4_K_XL. Para obtener unas 6 tk/sec, basta con 512 GB de RAM y 2 RTX 3090, usando
llama.cpp -cmoeAhora mismo es porque tengo una DDR4 2400MHz bastante mala; con 3200MHz probablemente subiría hasta unas 9 tk/sec. El CPU también está bien, es un EPYC de 32 núcleos, pero con uno mejor de 64 núcleos parece que podría llegar hasta 11 tk/sec
Armé el hardware en modo económico antes de que los precios se volvieran una locura y me arrepiento todos los días, pero aun así es genial poder correr este modelo en casa. Va muy bien para planificación o para juntar todo el contexto necesario y luego lanzar un prompt de una sola pasada
El costo total del hardware fue de 2,400 dólares cuando lo armé, y si uno busca bien, sí hay formas de correr modelos así en casa. Me preguntan seguido por qué hacer esto o cuánto ahorraría usando una API en la nube, pero creo que el caso de Fable mostró el valor de operar de forma independiente
Gracias al equipo de unsloth, y Q4_K_XL está sólido. Si van a bajar un modelo cuantizado, conviene bajar la variante K_XL si les entra
También están buenísimos los investigadores que intentan meter modelos open source en un cepillo de dientes eléctrico o en un Tamagotchi
Si no necesitas sí o sí la privacidad o la satisfacción de tenerlo bajo tu control, pagarle a un hiperescalador sale más barato, es más cómodo y además da muchos más tokens por segundo
Aun así, me gusta la dirección y tengo curiosidad por ver qué hardware de self-hosting habrá dentro de 2 años
La he disfrutado bastante y tengo muchas ganas de probar este modelo también
Además de correr modelos locales, uso ese equipo como mi principal plataforma de desarrollo remoto. Ahora ejecuto todas las sesiones de Claude Code ahí con
tmuxMis dedos están felices de no tener que tocar una laptop caliente todo el tiempo. También está el hecho de que Claude Code consume una barbaridad de batería
[0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
Solo la RAM cuesta casi 5,000 dólares, y cada GPU anda por unos 2,000, así que con los precios actuales es hardware bastante caro
llama.cpppara este modelo todavía no incluye soporte para atención dispersa DSA, así que sigue bastante incompletaPor eso el modelo termina ejecutándose con otros mecanismos que no se usaron durante el entrenamiento, y hubo resultados que mostraron peor calidad y rendimiento
De todos modos, GLM 5.2 no me parece tan interesante en varios aspectos como la línea DeepSeek V4. DeepSeek V4 usa un mecanismo de atención más avanzado que puede ahorrar mucha memoria de caché KV, especialmente en contextos largos
Como resultado, permite procesamiento por lotes más amplio incluso en plataformas de consumo. GLM no tiene eso y, en términos de arquitectura base y rendimiento, se siente más o menos parecido a Kimi 2.6. Ambos son un poco demasiado pesados para correrlos con calidad completa de forma razonable en hardware común
Casi llego. Mi equipo es 192 GB de RAM + RTX 3090 de 24 GB, y por poco no pude correr esto
Para el offloading de MoE dice que se necesitan 24 GB de VRAM y 256 GB de RAM
https://unsloth.ai/docs/models/glm-5.2#usage-guide
En un hilo anterior alguien dijo que hacían falta 500 mil dólares en hardware
https://news.ycombinator.com/item?id=48629970
Con NVFP4 se puede lograr una velocidad razonable, alrededor de 120 tok/s, y concurrencia por entre 80 mil y 90 mil dólares a precios actuales, quizá incluso menos
Con ese dinero compras 6 RTX 6000 PRO Blackwell, un CPU decente, motherboard y fuente de poder. Serían 576 GB de VRAM
Si te basta con 40 tok/s en decode y unos 1200 tok/s en prefill, se puede hacer por menos de 50 mil dólares
Siento que una de las razones por las que el hardware estuvo relativamente estancado durante los últimos 20 años es que las empresas no tenían suficientes casos de uso para justificar renovarlo
Durante los últimos 15 años, la mayor parte del dinero y la energía se fue a lo móvil
La inferencia local barata podría convertirse en la fuente de ingresos que necesitan otra vez los fabricantes de servidores, desktops y laptops para moverse
Me tienta un poco comprar una GPU con 24 GB de RAM
Que “entre” significa que cabe en 256 GB de RAM, pero en un estado fuertemente cuantizado y aun así correría muy lento
La cifra del titular no es la velocidad de generación de tokens, sino la velocidad de procesamiento del prompt
Si da 10 tok/s y la API da 20~30 tok/s, a simple vista no parece tan mal, pero en una Mac Studio o en equipos donde no todo se sube a la GPU, el procesamiento del prompt es entre 20 y 50 veces más lento que en una configuración puramente de GPU
Esa es, al final, la parte que hace que en la práctica no sea utilizable a menos que gastes 50 mil dólares en GPU. Y encima sigues usando un modelo fuertemente cuantizado
También hay una versión de doble puerto para este tipo de equipos: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
O sea, son puertos de 2 x 100 GB/s, y quizá incluso 2 x 200 GB/s. Supongo que se sabrá más cuando alguien lo tenga en las manos
Este tipo de equipos también se puede agrupar en clústeres. Con 2 o 3 máquinas, usando 2 subredes IP, parece bastante claro. Con 4 o más, quizá haga falta un switch dependiendo de cuánto afecte la latencia de red
Parece que Apple se olvidó de la serie M con mucha RAM. No encuentro configuraciones con más de 96 GB de RAM unificada en la tienda de Apple, y aun así cuestan un riñón
Se está empujando en varias direcciones al mismo tiempo: los nuevos escritorios de IA con GB10 son relativamente baratos y con clústeres se puede armar 1 TB de VRAM
Nvidia, AMD, Intel, Cerebras y otros están impulsando nuevo hardware, y los modelos open source como GLM 5.2 están mejorando de forma absurda
Los modelos flash como DeepSeek V4 Flash también están mejorando muchísimo, y la cuantización sigue avanzando
También ya es posible usar arneses que permitan emplear distintos modelos, como uno grande para tareas difíciles y uno pequeño para trabajo rutinario
Por eso, quienes quieran salir de las API esperan poder alojar pronto en casa un clúster de escritorios de IA a un precio razonable y usar rendimiento de nivel Opus
Es barato comparado con un H200 equivalente, pero para un homelab sin financiación respaldada por RSU de OpenAI o Anthropic sigue siendo inalcanzable
Da la impresión de que la brecha se está cerrando hasta un punto en que ya se pueden correr localmente modelos lo bastante buenos, incluso para programación, y creo que eso pondrá nerviosas a algunas empresas. ¿Estoy equivocado?
Pero por ahora sigue siendo muy poca la gente que puede costear el equipo necesario para ejecutar este modelo de forma efectiva. No parece que eso vaya a cambiar mucho en los próximos años
Si Z.ai sacara una versión especializada en código como GLM-5.2 Flash de alrededor de 80B parámetros, los laboratorios de frontera en EE. UU. estarían más preocupados
En general, las empresas chinas de IA están mostrando cómo hacer lo mismo con menos recursos, a veces con muchos menos, y si esa tendencia sigue, sí pondrá nerviosos a los laboratorios de frontera
Aun así, las empresas chinas de IA también intentarán proteger su foso al no publicar modelos mucho más pequeños pero igual de potentes que sus modelos principales actuales
Alibaba Qwen parece haber llegado a esa posición. Últimamente ha estado bastante silenciosa, y su modelo más reciente de 395B es demasiado grande para que la mayoría de la gente lo corra en casa. Tampoco parece haber señales de que esta vez vayan a sacar un modelo más pequeño
Si el equipo de desarrollo tiene unas 10 personas, hacer una inversión única de 50 mil dólares en un servidor LLM puede ser una opción bastante atractiva
Hay tokens ilimitados, rendimiento decente, opciones de actualización y posibilidad de integración en productos
En general, para una empresa que quiera meter LLM en su producto, el enfoque de LLM local parecería todavía más atractivo. Incluso un modelo algo tonto es suficientemente bueno para muchos de los usos que la gente integra en sus productos
Pero las opciones son una build de CPU extremadamente lenta con 10 mil dólares en RAM, 90 mil dólares en GPU, o un modelo fuertemente cuantizado cuya calidad es difícil de comparar
Se puede armar uno por diversión, pero eso por sí solo no cambia la economía. Aun así, el hecho de que se pueda hacer es interesante
A OpenAI y Anthropic probablemente no les guste el momento del lanzamiento de GLM 5.2
Muestra bastante bien que no había un foso mágico, sino simplemente una ventaja por haber salido antes
Se podría usar una Mac Studio con 192 GB de RAM, aunque está por debajo del mínimo especificado
En particular, como es MoE, ¿quizá se podría hacer que funcione a base de swapping sobre un disco rápido?
Además, el rendimiento sería desastroso, como del orden de 0.1 tok/s
Respeto mucho el trabajo de unsloth por ayudar a millones de personas a empezar con la IA local, pero este artículo parece un poco clickbait de descargas
Si haces offload de demasiadas capas al CPU, simplemente no funciona bien. Lo he probado varias veces, y al final solo terminé teniendo que hacer
rm -rfa carpetas pesadas del caché de Hugging FaceIncluso dudo que una cuantización de 1 bit o 2 bits de GLM 5.2 corriendo en su mayor parte fuera de la VRAM sea más útil que Qwen3.6-27B Q8_0 completamente cargado en VRAM
Diga lo que diga el artículo, creo que quien intente correr esto en una máquina con 256 GB de RAM no la va a pasar bien
Un mínimo mucho más realista es 512 GB
Por suerte, tengo 2 estaciones de trabajo dual Xeon con 512 GB de RAM en la oficina en casa, compradas baratas antes de que subieran de precio, así que podré experimentar con varias cosas