Cómo ejecutar GLM-5.2 en local

(unsloth.ai)

1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp

El nuevo modelo abierto GLM-5.2 de Z.ai destaca por ser un caso de uso de un modelo grande manejado en hardware local, con 744B parámetros, 40B parámetros activos y una ventana de contexto de 1M
Unsloth ofrece una ruta de ejecución local con Dynamic GGUF, y la quant recomendada de 2-bit UD-IQ2_M requiere 239GB de disco y un entorno de al menos 245GB de RAM
Dynamic 1-bit muestra alrededor de 76.2% top-1 accuracy y una reducción de tamaño del 86%, mientras que Dynamic 2-bit muestra cerca de 82% de accuracy y una reducción del 84%, lo que contradice la interpretación de que “el rendimiento empeora en la misma proporción en que se reduce el tamaño”
Hay dos formas de ejecutarlo: Unsloth Studio y llama.cpp; Studio soporta búsqueda, descarga y ejecución del modelo en MacOS, Windows y Linux, además de RAM offloading y detección de multiGPU
Para usar realmente contextos largos, hay que reducir memoria con KV cache quantization de llama.cpp; q4_0 permite un contexto unas 3.5 veces más largo y q4_1 unas 3.2 veces más largo

Resumen del modelo GLM-5.2

GLM-5.2 es el nuevo modelo abierto de Z.ai y puede ejecutarse en hardware local mediante Unsloth Dynamic GGUF
Las especificaciones del modelo son las siguientes
- Parámetros totales: 744B
- Parámetros activos: 40B
- Ventana de contexto máxima: 1,048,576
Se presenta como un modelo con rendimiento SOTA en long-horizon coding, razonamiento y agentic tasks
Según Artificial Analysis y varios benchmarks, tendría un rendimiento al nivel de Claude 4.8 Opus, GPT-5.5 y Gemini 3.1 Pro
Unsloth indicó que recibió day-zero access por parte de Z.ai
Los archivos GGUF para GLM-5.2 pueden descargarse desde Hugging Face en GLM-5.2-GGUF

Quant recomendada y requisitos de memoria

Para equilibrar accesibilidad y precisión, se recomienda usar la 2-bit dynamic quant UD-IQ2_M
- Uso de disco: 239GB
- Cabe directamente en una Mac con 256GB de memoria unificada
- Con MoE offloading, se indica que funciona bien incluso con 1x24GB GPU + 256GB RAM
La quant de 1-bit cabe en 223GB RAM, mientras que la de 8-bit requiere 810GB RAM
En la tabla de requisitos de hardware para inferencia, la memoria total significa RAM + VRAM o memoria unificada
- Las cifras de memoria total mostradas son: 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
Para obtener el mejor rendimiento, la memoria disponible entre VRAM y RAM del sistema debe superar con holgura el quantized model file size

Modo Thinking y configuración de sampling

GLM-5.2 ofrece 3 thinking modes
- non-thinking
- thinking High
- thinking Max
Para tareas complejas, se recomienda usar Max Thinking
En Unsloth Studio, se puede alternar entre High/Max Thinking y non-Thinking desde la interfaz
La configuración sugerida para la mayoría de los casos de uso es la siguiente
- temperature = 1.0
- top_p = 0.95
- En otros modos, top_p = 1.0
GLM-5.2 usa razonamiento por defecto, y reasoning_effort puede fijarse en "high", "max" o desactivarse
Ejemplos para desactivar thinking
- Shell común: --chat-template-kwargs '{"enable_thinking":false}'
- Windows PowerShell: --chat-template-kwargs "{\"enable_thinking\":false}"
En llama.cpp también se puede usar --reasoning on o --reasoning off
Ejemplos de configuración de reasoning effort
- --chat-template-kwargs '{"reasoning_effort":"max"}'
- --chat-template-kwargs '{"reasoning_effort":"high"}'
- --chat-template-kwargs '{"enable_thinking":false}'

Precisión de Dynamic GGUF e interpretación de KLD

Unsloth usa el benchmark de KLD(KL Divergence) para evaluar la precisión de quantization de GLM-5.2-GGUF
Se indica que Dynamic 4-bit UD-Q4_K_XL y Dynamic 5-bit UD-Q5_K_XL son en su mayoría lossless
Incluso las quants más pequeñas funcionan con un esquema de asignación dinámica de precisión, donde las capas importantes mantienen mayor precisión y las menos importantes usan pocos bits
Las cifras basadas en pure top-1% accuracy son las siguientes
- Dynamic 1-bit: alrededor de 76.2% accuracy, 86% de reducción de tamaño
- Dynamic 2-bit: alrededor de 82% accuracy, 84% de reducción de tamaño
- Comparación de accuracy: {b:76,82}
Decir que es 86% más pequeño no significa que sea 86% peor; para Dynamic 1-bit se añade la interpretación de que tiene una precisión aproximadamente 24% menor que el modelo completo de 1.5TB
“76% accuracy” no significa que, ante una pregunta como “The capital of France is”, elija Paris 76% y Sydney 24%
- En ese ejemplo, se indica que Paris siempre sería 100% y Sydney 0%
- La cifra de 76% también incluye cambios en la distribución de filler words y stop words de todo el corpus
En prompts como “Create a novel”, donde puede haber varios comienzos correctos, la distribución de tokens entre el modelo base y el modelo quantizado puede diferir
- El baseline podría elegir [I] con 100%, mientras que el modelo quantizado podría repartir la distribución como [I] 76% y [The] 24%
- Eso no significa que haya un 24% de probabilidad de producir gibberish o una salida incorrecta
KLD es la distancia entre las probabilidades del baseline BF16 o Q8_0 y las de la versión quantizada
- El objetivo de la quantization es minimizar el promedio de KL divergence entre f(q(W)) y f(W)
- f es el forward del language model, q es la operación de quantization y W son los parámetros o weights del modelo
- Si KLD es 0, el modelo se reconstruyó perfectamente
Como ejecutar KLD sobre el corpus completo de entrenamiento de 15T tokens sería costoso, Unsloth optimiza usando mean KLD y muestreo de subconjuntos pequeños representativos
También se indica que 99.9% KLD suele ser bueno, y que desde 4bit en adelante hay un uplift mayor, por lo que Dynamic 4-bit probablemente sea la opción más adecuada para tareas massive out-of-distribution

Ejecutarlo con Unsloth Studio

Unsloth Studio es una web UI open source para AI local y soporta la ejecución de GLM-5.2
Sus funciones principales son las siguientes
- Ejecutar modelos locales en MacOS, Windows y Linux
- Buscar, descargar y ejecutar modelos GGUF y safetensor
- Detección automática de RAM offloading y configuraciones multiGPU
- Inferencia rápida con CPU + GPU mediante llama.cpp
Los comandos de instalación son los siguientes
- MacOS, Linux, WSL: curl -fsSL https://unsloth.ai/install.sh | sh
- Windows PowerShell: irm https://unsloth.ai/install.ps1 | iex
Los comandos de ejecución son los siguientes
- unsloth studio -H 0.0.0.0 -p 8888
- Después de ejecutarlo, basta con abrir http://127.0.0.1:8888 en el navegador o la URL específica de cada usuario
También se ofrece una forma de ejecutar Studio de manera segura con HTTPS
- En Windows, Mac y Linux: unsloth studio --secure
- Usa un Cloudflare tunnel gratuito
En la primera ejecución hay que crear una password para proteger la cuenta y luego volver a iniciar sesión
En la pestaña Chat de Studio, hay que buscar GLM-5.2 en el buscador y descargar el modelo y la quant deseados
Antes de ejecutar el modelo, hay que verificar que haya suficiente compute disponible
En Studio, los inference parameters deberían configurarse automáticamente, aunque el usuario puede cambiar manualmente context length, chat template y otros ajustes
Más información en la guía de inferencia de Unsloth Studio

Ejecutarlo con llama.cpp

El tutorial de llama.cpp cubre la ejecución de la quant UD-IQ2_M y requiere un mínimo de 245GB RAM
Para inferencia local rápida se usa llama.cpp
Si no tienes GPU o quieres solo inferencia en CPU, cambia -DGGML_CUDA=ON por -DGGML_CUDA=OFF
En dispositivos Apple Mac / Metal, también se puede continuar con -DGGML_CUDA=OFF, ya que el soporte Metal viene activado por defecto
El proceso de compilación sigue este flujo
- apt-get update
- apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
- git clone https://github.com/ggml-org/llama.cpp
- cmake ... -DGGML_CUDA=ON
- cmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
- cp llama.cpp/build/bin/llama-* llama.cpp
llama.cpp puede usarse para cargar y descargar el modelo directamente, de forma similar a ollama run
Como ejemplo de tipo de quantization se elige UD-IQ2_M, y puede forzarse la ubicación de guardado con export LLAMA_CACHE="unsloth/GLM-5.2-GGUF"
Se advierte que el proceso de descarga directa de llama.cpp puede ser muy lento, por lo que se sugiere la descarga manual

Ejemplos de descarga manual y ejecución

Para una descarga manual más rápida se usa huggingface_hub
- pip install huggingface_hub
- hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
Para near full precision puede usarse --include "*UD-Q8_K_XL*"
Si la descarga se detiene, se recomienda revisar Hugging Face Hub, XET debugging
El comando de descarga para Dynamic 1-bit es el siguiente
- hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
Las rutas del modelo en conversation mode son las siguientes
- 2-bit: unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf
- 1-bit: unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
El ejemplo de ejecución con llama-cli usa el primer shard del GGUF de 2-bit en --model y los siguientes parámetros
- --temp 1.0
- --top-p 0.95
- --min-p 0.01
En el ejemplo de ejecución directa también se usa -hf unsloth/GLM-5.2-GGUF:UD-IQ2_M

Comportamiento confirmado con un ejemplo de generación

La documentación incluye un ejemplo donde GLM-5.2 de 2-bit realiza tool-calling y generación de SVG
Después de ejecutar llama-cli, sigue un ejemplo pidiendo generar un “short Flappy Bird game”
El juego generado en un solo archivo HTML/JavaScript usa el nombre Sunset Flier
- Incluye canvas, pantalla de inicio, pantalla de game over, puntaje HUD, botón NEW BEST! y botón RETRY
- Genera efectos de sonido flap, score, hit y die con Web Audio API sin recursos externos
- El estado del juego se gestiona en cuatro etapas: READY, PLAYING, DYING, OVER
- La mejor puntuación se guarda con localStorage.getItem('sunsetFlierBest') y localStorage.setItem()
La lógica del juego incluye gravedad, impulso de flap, tuberías aleatorias, colisiones, partículas, screen shake y sistema de medallas
- GRAVITY = 0.42
- MAX_FALL = 9
- PIPE_W = 68
- PIPE_GAP = 180
- PIPE_SPEED = 2.6
- PIPE_SPACING = 220
La entrada soporta mouse, touch y teclado con Space, ArrowUp y Enter
Este ejemplo del juego se presenta en el contexto de que también funcionó bien incluso con 1-bit quantization, incluyendo el audio

Contexto largo y KV cache quantization

Para aprovechar contextos largos en llama.cpp, hay que reducir el uso de memoria con KV cache quantization
llama.cpp añadió recientemente técnicas para mejorar la precisión de KV cache quantization; el PR relacionado es https://github.com/ggml-org/llama.cpp/pull/21038
Los dtypes soportados para KV cache son los siguientes
- f32
- f16
- bf16
- q8_0
- q4_0
- q4_1
- iq4_nl
- q5_0
- q5_1
El valor por defecto es f16
Como q4_0 usa alrededor de 4.5 bits por weight, permite aumentar la longitud del contexto en 16 / 4.5, es decir, cerca de 3.5 veces
- Por ejemplo, un modelo que antes soportaba 10K podría entrar en el rango de hasta 35K
q4_1 añade un shifting parameter, por lo que podría rendir mejor, y con 5 bits por weight ofrece alrededor de 3.2 veces más contexto
El ejemplo de ejecución con KV cache quantization especifica el modelo GLM-5.2 GGUF y los parámetros de sampling
- Ruta del modelo: unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf
- --temp 1.0
- --top-p 0.95
- --min-p 0.01
- --cache-type-k q4_1
- --cache-type-v q4_1

Cifras observables en la tabla de benchmarks

La documentación continúa con una tabla de benchmarks de GLM-5.2, pero en el contenido proporcionado no aparecen los encabezados de columnas, así que no puede verificarse a qué modelo o configuración corresponde cada número
En los benchmarks de razonamiento aparecen las siguientes filas y cifras
- HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7
- AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6
- GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
En los benchmarks de coding aparecen las siguientes filas y cifras
- SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4
- NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5
- Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
En los benchmarks agentic aparecen las siguientes filas y cifras
- MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6
- Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8

1 comentarios

GN⁺ 4 시간 전

Comentarios en Hacker News

Estoy ejecutando Q4_K_XL. Para obtener unas 6 tk/sec, basta con 512 GB de RAM y 2 RTX 3090, usando llama.cpp -cmoe
Ahora mismo es porque tengo una DDR4 2400MHz bastante mala; con 3200MHz probablemente subiría hasta unas 9 tk/sec. El CPU también está bien, es un EPYC de 32 núcleos, pero con uno mejor de 64 núcleos parece que podría llegar hasta 11 tk/sec
Armé el hardware en modo económico antes de que los precios se volvieran una locura y me arrepiento todos los días, pero aun así es genial poder correr este modelo en casa. Va muy bien para planificación o para juntar todo el contexto necesario y luego lanzar un prompt de una sola pasada
El costo total del hardware fue de 2,400 dólares cuando lo armé, y si uno busca bien, sí hay formas de correr modelos así en casa. Me preguntan seguido por qué hacer esto o cuánto ahorraría usando una API en la nube, pero creo que el caso de Fable mostró el valor de operar de forma independiente
Gracias al equipo de unsloth, y Q4_K_XL está sólido. Si van a bajar un modelo cuantizado, conviene bajar la variante K_XL si les entra
- Aplausos para quienes llevan al límite lo posible con este tipo de experimentos caseros. Igual que con las criptomonedas, la IA está tapada por el ruido de los vendedores, pero casi no se habla de construir resiliencia
  También están buenísimos los investigadores que intentan meter modelos open source en un cepillo de dientes eléctrico o en un Tamagotchi
- Si mantienes esa carga corriendo todo el tiempo, son al menos 600W, o sea unos 14 kWh por día. A 0.2 dólares por kWh, serían 2.80 dólares diarios, cerca de 1,000 dólares al año solo en electricidad
  Si no necesitas sí o sí la privacidad o la satisfacción de tenerlo bajo tu control, pagarle a un hiperescalador sale más barato, es más cómodo y además da muchos más tokens por segundo
  Aun así, me gusta la dirección y tengo curiosidad por ver qué hardware de self-hosting habrá dentro de 2 años
- Tengo casi la misma configuración. 2 RTX 3090, 512 GB de DDR4 un poco más rápida y un EPYC de 64 núcleos [0]
  La he disfrutado bastante y tengo muchas ganas de probar este modelo también
  Además de correr modelos locales, uso ese equipo como mi principal plataforma de desarrollo remoto. Ahora ejecuto todas las sesiones de Claude Code ahí con tmux
  Mis dedos están felices de no tener que tocar una laptop caliente todo el tiempo. También está el hecho de que Claude Code consume una barbaridad de batería
  [0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
- Decir “esto es lo que hace falta para correrlo” puede ser cierto si lo compraste por 2,400 dólares, pero hoy el precio total está mucho más cerca de 10 mil dólares
  Solo la RAM cuesta casi 5,000 dólares, y cada GPU anda por unos 2,000, así que con los precios actuales es hardware bastante caro
- Según entiendo, la implementación de llama.cpp para este modelo todavía no incluye soporte para atención dispersa DSA, así que sigue bastante incompleta
  Por eso el modelo termina ejecutándose con otros mecanismos que no se usaron durante el entrenamiento, y hubo resultados que mostraron peor calidad y rendimiento
  De todos modos, GLM 5.2 no me parece tan interesante en varios aspectos como la línea DeepSeek V4. DeepSeek V4 usa un mecanismo de atención más avanzado que puede ahorrar mucha memoria de caché KV, especialmente en contextos largos
  Como resultado, permite procesamiento por lotes más amplio incluso en plataformas de consumo. GLM no tiene eso y, en términos de arquitectura base y rendimiento, se siente más o menos parecido a Kimi 2.6. Ambos son un poco demasiado pesados para correrlos con calidad completa de forma razonable en hardware común
Casi llego. Mi equipo es 192 GB de RAM + RTX 3090 de 24 GB, y por poco no pude correr esto
Para el offloading de MoE dice que se necesitan 24 GB de VRAM y 256 GB de RAM
https://unsloth.ai/docs/models/glm-5.2#usage-guide
En un hilo anterior alguien dijo que hacían falta 500 mil dólares en hardware
https://news.ycombinator.com/item?id=48629970
- 500 mil dólares es una exageración enorme. Si apuntas a alta concurrencia a gran escala en FP8 o BF16, podría ser
  Con NVFP4 se puede lograr una velocidad razonable, alrededor de 120 tok/s, y concurrencia por entre 80 mil y 90 mil dólares a precios actuales, quizá incluso menos
  Con ese dinero compras 6 RTX 6000 PRO Blackwell, un CPU decente, motherboard y fuente de poder. Serían 576 GB de VRAM
  Si te basta con 40 tok/s en decode y unos 1200 tok/s en prefill, se puede hacer por menos de 50 mil dólares
- Con 2 bits es difícil obtener buenos resultados. Para código, el rango ideal es al menos Q8
- Espero que este boom vuelva a impulsar el desarrollo de hardware de cómputo como en los años 90
  Siento que una de las razones por las que el hardware estuvo relativamente estancado durante los últimos 20 años es que las empresas no tenían suficientes casos de uso para justificar renovarlo
  Durante los últimos 15 años, la mayor parte del dinero y la energía se fue a lo móvil
  La inferencia local barata podría convertirse en la fuente de ingresos que necesitan otra vez los fabricantes de servidores, desktops y laptops para moverse
- Tengo RAM, pero no tengo VRAM. Con una 3090 de 24 GB de RAM, ¿qué velocidad o tok/s se podría esperar?
  Me tienta un poco comprar una GPU con 24 GB de RAM
- Por curiosidad se lo pregunté a Gemini y respondió que, para obtener un throughput decente sin cuantización, hacen falta 500 mil dólares
Que “entre” significa que cabe en 256 GB de RAM, pero en un estado fuertemente cuantizado y aun así correría muy lento
La cifra del titular no es la velocidad de generación de tokens, sino la velocidad de procesamiento del prompt
Si da 10 tok/s y la API da 20~30 tok/s, a simple vista no parece tan mal, pero en una Mac Studio o en equipos donde no todo se sube a la GPU, el procesamiento del prompt es entre 20 y 50 veces más lento que en una configuración puramente de GPU
Esa es, al final, la parte que hace que en la práctica no sea utilizable a menos que gastes 50 mil dólares en GPU. Y encima sigues usando un modelo fuertemente cuantizado
- Equipos como el Spark de Nvidia tienen 128 GB de RAM unificada
  También hay una versión de doble puerto para este tipo de equipos: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
  O sea, son puertos de 2 x 100 GB/s, y quizá incluso 2 x 200 GB/s. Supongo que se sabrá más cuando alguien lo tenga en las manos
  Este tipo de equipos también se puede agrupar en clústeres. Con 2 o 3 máquinas, usando 2 subredes IP, parece bastante claro. Con 4 o más, quizá haga falta un switch dependiendo de cuánto afecte la latencia de red
  Parece que Apple se olvidó de la serie M con mucha RAM. No encuentro configuraciones con más de 96 GB de RAM unificada en la tienda de Apple, y aun así cuestan un riñón
Se está empujando en varias direcciones al mismo tiempo: los nuevos escritorios de IA con GB10 son relativamente baratos y con clústeres se puede armar 1 TB de VRAM
Nvidia, AMD, Intel, Cerebras y otros están impulsando nuevo hardware, y los modelos open source como GLM 5.2 están mejorando de forma absurda
Los modelos flash como DeepSeek V4 Flash también están mejorando muchísimo, y la cuantización sigue avanzando
También ya es posible usar arneses que permitan emplear distintos modelos, como uno grande para tareas difíciles y uno pequeño para trabajo rutinario
Por eso, quienes quieran salir de las API esperan poder alojar pronto en casa un clúster de escritorios de IA a un precio razonable y usar rendimiento de nivel Opus
- Aquí la palabra “relativamente” está haciendo bastante trabajo. Si una GB10 cuesta unos 4,000 dólares, un clúster de 1 TB sale en 36,000 dólares
  Es barato comparado con un H200 equivalente, pero para un homelab sin financiación respaldada por RSU de OpenAI o Anthropic sigue siendo inalcanzable
Da la impresión de que la brecha se está cerrando hasta un punto en que ya se pueden correr localmente modelos lo bastante buenos, incluso para programación, y creo que eso pondrá nerviosas a algunas empresas. ¿Estoy equivocado?
- Si no fuera por la actual escasez de RAM/GPU, esas empresas estarían aún más nerviosas de lo que ya están
  Pero por ahora sigue siendo muy poca la gente que puede costear el equipo necesario para ejecutar este modelo de forma efectiva. No parece que eso vaya a cambiar mucho en los próximos años
  Si Z.ai sacara una versión especializada en código como GLM-5.2 Flash de alrededor de 80B parámetros, los laboratorios de frontera en EE. UU. estarían más preocupados
  En general, las empresas chinas de IA están mostrando cómo hacer lo mismo con menos recursos, a veces con muchos menos, y si esa tendencia sigue, sí pondrá nerviosos a los laboratorios de frontera
  Aun así, las empresas chinas de IA también intentarán proteger su foso al no publicar modelos mucho más pequeños pero igual de potentes que sus modelos principales actuales
  Alibaba Qwen parece haber llegado a esa posición. Últimamente ha estado bastante silenciosa, y su modelo más reciente de 395B es demasiado grande para que la mayoría de la gente lo corra en casa. Tampoco parece haber señales de que esta vez vayan a sacar un modelo más pequeño
- Yo creo que no. Es fácil imaginar una empresa decidiendo alojar y ejecutar este tipo de modelos para su propio desarrollo interno
  Si el equipo de desarrollo tiene unas 10 personas, hacer una inversión única de 50 mil dólares en un servidor LLM puede ser una opción bastante atractiva
  Hay tokens ilimitados, rendimiento decente, opciones de actualización y posibilidad de integración en productos
  En general, para una empresa que quiera meter LLM en su producto, el enfoque de LLM local parecería todavía más atractivo. Incluso un modelo algo tonto es suficientemente bueno para muchos de los usos que la gente integra en sus productos
- Para ser una amenaza ni siquiera hace falta correrlo localmente. Muchas empresas están viendo el modelo de pagarle a terceros que hospeden estos modelos, y los precios están en una fracción de lo que cobran los laboratorios de frontera
- Los requisitos de RAM siguen siendo bastante dolorosos
- Ejecutarlo localmente no es económico. Es excelente para la privacidad y un hobby divertido
  Pero las opciones son una build de CPU extremadamente lenta con 10 mil dólares en RAM, 90 mil dólares en GPU, o un modelo fuertemente cuantizado cuya calidad es difícil de comparar
  Se puede armar uno por diversión, pero eso por sí solo no cambia la economía. Aun así, el hecho de que se pueda hacer es interesante
A OpenAI y Anthropic probablemente no les guste el momento del lanzamiento de GLM 5.2
Muestra bastante bien que no había un foso mágico, sino simplemente una ventaja por haber salido antes
Se podría usar una Mac Studio con 192 GB de RAM, aunque está por debajo del mínimo especificado
En particular, como es MoE, ¿quizá se podría hacer que funcione a base de swapping sobre un disco rápido?
- Si haces tanto swapping, parece una buena forma de consumir la vida útil total de escritura (TBW) del SSD NVMe y acortarle mucho la vida
  Además, el rendimiento sería desastroso, como del orden de 0.1 tok/s
Respeto mucho el trabajo de unsloth por ayudar a millones de personas a empezar con la IA local, pero este artículo parece un poco clickbait de descargas
Si haces offload de demasiadas capas al CPU, simplemente no funciona bien. Lo he probado varias veces, y al final solo terminé teniendo que hacer rm -rf a carpetas pesadas del caché de Hugging Face
Incluso dudo que una cuantización de 1 bit o 2 bits de GLM 5.2 corriendo en su mayor parte fuera de la VRAM sea más útil que Qwen3.6-27B Q8_0 completamente cargado en VRAM
Diga lo que diga el artículo, creo que quien intente correr esto en una máquina con 256 GB de RAM no la va a pasar bien
Un mínimo mucho más realista es 512 GB
Por suerte, tengo 2 estaciones de trabajo dual Xeon con 512 GB de RAM en la oficina en casa, compradas baratas antes de que subieran de precio, así que podré experimentar con varias cosas

Cómo ejecutar GLM-5.2 en local

Resumen del modelo GLM-5.2

Quant recomendada y requisitos de memoria

Modo Thinking y configuración de sampling

Precisión de Dynamic GGUF e interpretación de KLD

Ejecutarlo con Unsloth Studio

Ejecutarlo con llama.cpp

Ejemplos de descarga manual y ejecución

Comportamiento confirmado con un ejemplo de generación

Contexto largo y KV cache quantization

Cifras observables en la tabla de benchmarks

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News