Presentan el modelo GLM-4.7-Flash

(huggingface.co)

11 puntos por GN⁺ 2026-01-20 | 4 comentarios | Compartir por WhatsApp

GLM-4.7-Flash es un modelo de lenguaje grande con arquitectura MoE 30B-A3B, que ofrece un equilibrio entre rendimiento y eficiencia como modelo ligero para despliegue
Registró puntajes altos en varias pruebas de benchmark como AIME 25, GPQA y SWE-bench, con resultados competitivos frente a modelos de la misma categoría (Qwen3-30B/GPT-OSS-20B)
Apunta a un rendimiento de primer nivel entre los modelos de clase 30B y representa un avance importante para la investigación de IA basada en código abierto y la optimización de despliegue

Introducción (Introduction)

GLM-4.7-Flash es un modelo Mixture-of-Experts (MoE) 30B-A3B, diseñado con el objetivo de ofrecer el rendimiento más potente entre los modelos de clase 30B
- Ofrece una opción ligera de despliegue enfocada en equilibrar rendimiento y eficiencia
- Su diseño permite aprovechar modelos de gran escala de forma más eficiente

Rendimiento en benchmarks (Performances on Benchmarks)

Se presentan las métricas de rendimiento de GLM-4.7-Flash en diversos benchmarks estándar
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 obtuvo 85.0 y GPT-OSS-20B 91.7)
- GPQA: 75.2 (más alto que los modelos comparados)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (una diferencia amplia frente a otros modelos)
- τ²-Bench: 79.5
- BrowseComp: 42.8
En varios apartados muestra resultados superiores a Qwen3-30B-A3B-Thinking-2507 y GPT-OSS-20B

Despliegue local (Serve GLM-4.7-Flash Locally)

GLM-4.7-Flash es compatible con los frameworks de inferencia vLLM y SGLang
- Ambos frameworks son compatibles solo en la rama principal
- Las instrucciones de despliegue pueden consultarse en el repositorio oficial de GitHub (zai-org/GLM-4.5)

4 comentarios

kimjoin2 2026-01-20

Si es 30B... ¿cuánta VRAM se necesita? T_T

crawler 2026-01-21

Como es 30B A3B, no resulta tan pesado.
Aunque sí hace falta asegurar un espacio para 30B, una vez que se tiene ese espacio, los parámetros activos son 3B, así que la velocidad es rápida.

Por eso creo que también vi métodos para optimizarlo cargando en la VRAM solo las capas que más se usan.

geekygeek 2026-01-20

¿VRAM de 24 GB...? O, si es una Mac, creo que con 32 GB de RAM sería lo mínimo.

GN⁺ 2026-01-20

Comentarios de Hacker News

Últimamente he estado experimentando con OpenCode, ejecutando un modelo 30B-A3B con llama.cpp (4bit) en una GPU de 32GB
Tengo suficiente VRAM como para usar sin problema un contexto de 128k
Hasta ahora, Qwen3-coder me ha dado los mejores resultados. Dicen que Nemotron 3 Nano es mejor en benchmarks, pero en la tarea que más hago, “escribir código de prueba”, no he sentido una gran diferencia
Pienso probarlo si alguien lo cuantiza a 4bit GGUF. Codex tiene alta calidad, pero es demasiado lento. Ojalá los modelos pequeños sigan mejorando no solo en benchmarks simples, sino también en calidad real
- Recomiendo el modelo GLM-4.7-GGUF. También se pueden ver otras buenas cuantizaciones en 0xSero
- Codex normalmente da más calidad, pero a veces produce resultados nivel AI slop, y al final te hace esperar mucho por algo que Opus resolvería en pocos minutos
Estoy usando GLM-4.7 con el plan de programación de z.ai, y la relación precio-rendimiento es sorprendente
Uso tanto claude-code como opencode, pero últimamente uso más opencode. claude-code está optimizado para modelos de Anthropic
Este lanzamiento es la versión “-Flash”; saltaron de la 4.5-Flash directo a esta, sin pasar por 4.6-Flash. Según la documentación, es un modelo equivalente a Haiku y está configurado como ANTHROPIC_DEFAULT_HAIKU_MODEL
- Me pregunto cómo anda el rendimiento últimamente. Escuché que algunos usuarios dicen que los límites cambiaron y ya casi no se puede usar
- Yo también uso el mismo plan. Lo compré en promoción por $28 por 12 meses y ofrece 5 veces más uso que Claude Pro. Ahora mismo solo uso claude code
GLM-4.7 es una mejora incremental, pero se ve bastante sólido. El demo oneshot de UI es mucho mejor que el de 4.6
Los modelos abiertos siguen estando más o menos un año atrás en benchmarks, pero a largo plazo siguen siendo interesantes
GLM activa solo 31B de 355B parámetros, así que hacer self-host no es fácil, pero me parece una buena opción para usar mediante el endpoint de Cerebras
- Ayer probé GLM-4.7 en Cerebras, no la versión Flash, con $10 de crédito. Es rápido, a 1000 tokens por segundo, pero el rate limit lo vuelve incómodo para uso real. Los tokens en caché también cuentan dentro del límite, así que al principio de cada minuto me bloquea y tengo que esperar
  También cobran por los tokens en caché, así que gasté $4 en una sola tarea simple. Con GPT-5.2-Codex habría costado menos de $0.5
- Se habla mucho de benchmarks, pero eso no es lo mismo que una carga de trabajo real. Yo dejé claude y me pasé a minimax m2.1. Al usarlo con open code, de hecho me gustó más. Con el plan de $10 me alcanza
- Los modelos abiertos al final van persiguiendo vía distillation, así que sin innovación siempre estarán atrás. Más que “ponerse al día”, son como un remolque colgado de un camión
- No es apropiado juzgar la calidad de un modelo por un demo de UI. Si la UI está fuera de distribución, casi siempre falla. Ni siquiera Codex es perfecto
Lo probé en LMStudio con una MacBook Pro M4, y fue mucho peor que gpt-oss-20b
En dos prompts de código generó código incorrecto y bucles infinitos. Puede ser un problema con la cuantización de LMStudio, pero la primera impresión no fue buena
- Me da curiosidad si estás usando el modelo completo en BF16 o la versión cuantizada mlx4
Quisiera preguntarles a quienes ya lo están corriendo en local: ¿cuál es la configuración más simple ahora mismo (tooling + formato de cuantización)? Si tienen un ejemplo de comando que funcione, compártanlo por favor
- Yo estoy usando llama-server compilado con el backend CUDA de llama.cpp. Corro la versión Q4_K_M quant en un entorno Lubuntu + RTX 3090
  Enlaces relacionados: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
```
llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
```
  Después puedes chatear en http://127.0.0.1:8080 o acceder mediante una API compatible con OpenAI
  Eso sí, justo después del lanzamiento de un modelo nuevo puede haber bugs, así que recomiendo actualizar unos días después
- También se puede ejecutar con el comando ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M. Va rápido, pero la plantilla todavía no está terminada y la salida sale desordenada. Estoy esperando a que suban una plantilla oficial a ollama.com
- En LM Studio solo hay que buscar “4.7-flash” e instalar la versión comunitaria de mlx
- Personalmente recomiendo llama.cpp 4bit quant o alguno de sus wrappers
Según la explicación de este lanzamiento,
“GLM-4.7-Flash es un modelo ligero y de alta eficiencia, la versión gratuita de GLM-4.7, y ofrece baja latencia y alto rendimiento en tareas de programación, razonamiento y generación.
También muestra un gran desempeño en traducción, roleplay y generación estética.”
Para más detalles, ver las notas oficiales de lanzamiento
- Dos notas publicadas este año aparecen por error como 2025. Puede que sea una página escrita manualmente
Para quienes se pregunten por qué este lanzamiento es importante:
ahora ya se puede correr localmente una IA de nivel GPT-5-mini incluso en una MacBook con 32GB de RAM
Además, el costo de LLM-as-a-service baja muchísimo: queda en alrededor de 1/10 del precio de Haiku 4.5
La puntuación de SWE-bench Verified es 59.2, bastante impresionante para un modelo de 30B. Es más alta que el 55.4 de Qwen3-Coder 480B
- Devstral 2 Small (24B) es más alto, con 68.0%. Enlace oficial
- Pero SWE-Bench Verified ya es difícil de considerar confiable. Los repositorios y lenguajes son limitados, y además está el problema de la memorización de datos. SWE-Bench Pro parece más prometedor, aunque tampoco es perfecto
Cuando necesito trabajo rápido uso Gemini o Cerebras. Ver el blog de Cerebras
GLM 4.7 alcanza para uso diario, pero a veces frustra porque le falta capacidad para entender instrucciones
- Justamente por esa capacidad de seguir instrucciones es que Opus 4.5 me funciona bien. Ojalá mejoren eso en la próxima versión
Me cuesta creer que GLM 4.7 se compare con GPT-OSS-20B. Si realmente estuviera al nivel de Sonnet 4/4.5, pensaría que la versión Flash debería aplastar a GPT-OSS-120B. También me habría gustado que incluyeran resultados de Aider
- Esperar que 30-A3B supere a 117-A5.1B ya es demasiado optimista. Aun así, parece mejor que GPT-20B en llamadas de agentes
- En uso real, los benchmarks están exagerados. Para tareas simples está bien, pero está muy lejos de Sonnet. Aun así, la relación costo-beneficio es buena
- Si lo mides por calidad de código, está más al nivel de Sonnet 3.5. Está lejos de Sonnet 4/4.5