- GLM-4.7-Flash es un modelo de lenguaje grande con arquitectura MoE 30B-A3B, que ofrece un equilibrio entre rendimiento y eficiencia como modelo ligero para despliegue
- Registró puntajes altos en varias pruebas de benchmark como AIME 25, GPQA y SWE-bench, con resultados competitivos frente a modelos de la misma categoría (Qwen3-30B/GPT-OSS-20B)
- Apunta a un rendimiento de primer nivel entre los modelos de clase 30B y representa un avance importante para la investigación de IA basada en código abierto y la optimización de despliegue
Introducción (Introduction)
- GLM-4.7-Flash es un modelo Mixture-of-Experts (MoE) 30B-A3B, diseñado con el objetivo de ofrecer el rendimiento más potente entre los modelos de clase 30B
- Ofrece una opción ligera de despliegue enfocada en equilibrar rendimiento y eficiencia
- Su diseño permite aprovechar modelos de gran escala de forma más eficiente
Rendimiento en benchmarks (Performances on Benchmarks)
- Se presentan las métricas de rendimiento de GLM-4.7-Flash en diversos benchmarks estándar
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 obtuvo 85.0 y GPT-OSS-20B 91.7)
- GPQA: 75.2 (más alto que los modelos comparados)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (una diferencia amplia frente a otros modelos)
- τ²-Bench: 79.5
- BrowseComp: 42.8
- En varios apartados muestra resultados superiores a Qwen3-30B-A3B-Thinking-2507 y GPT-OSS-20B
Despliegue local (Serve GLM-4.7-Flash Locally)
- GLM-4.7-Flash es compatible con los frameworks de inferencia vLLM y SGLang
4 comentarios
Si es 30B... ¿cuánta VRAM se necesita? T_T
Como es 30B A3B, no resulta tan pesado.
Aunque sí hace falta asegurar un espacio para 30B, una vez que se tiene ese espacio, los parámetros activos son 3B, así que la velocidad es rápida.
Por eso creo que también vi métodos para optimizarlo cargando en la VRAM solo las capas que más se usan.
¿VRAM de 24 GB...? O, si es una Mac, creo que con 32 GB de RAM sería lo mínimo.
Comentarios de Hacker News
Tengo suficiente VRAM como para usar sin problema un contexto de 128k
Hasta ahora, Qwen3-coder me ha dado los mejores resultados. Dicen que Nemotron 3 Nano es mejor en benchmarks, pero en la tarea que más hago, “escribir código de prueba”, no he sentido una gran diferencia
Pienso probarlo si alguien lo cuantiza a 4bit GGUF. Codex tiene alta calidad, pero es demasiado lento. Ojalá los modelos pequeños sigan mejorando no solo en benchmarks simples, sino también en calidad real
Uso tanto claude-code como opencode, pero últimamente uso más opencode. claude-code está optimizado para modelos de Anthropic
Este lanzamiento es la versión “-Flash”; saltaron de la 4.5-Flash directo a esta, sin pasar por 4.6-Flash. Según la documentación, es un modelo equivalente a Haiku y está configurado como
ANTHROPIC_DEFAULT_HAIKU_MODELLos modelos abiertos siguen estando más o menos un año atrás en benchmarks, pero a largo plazo siguen siendo interesantes
GLM activa solo 31B de 355B parámetros, así que hacer self-host no es fácil, pero me parece una buena opción para usar mediante el endpoint de Cerebras
También cobran por los tokens en caché, así que gasté $4 en una sola tarea simple. Con GPT-5.2-Codex habría costado menos de $0.5
En dos prompts de código generó código incorrecto y bucles infinitos. Puede ser un problema con la cuantización de LMStudio, pero la primera impresión no fue buena
Enlaces relacionados: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends Después puedes chatear en http://127.0.0.1:8080 o acceder mediante una API compatible con OpenAI
Eso sí, justo después del lanzamiento de un modelo nuevo puede haber bugs, así que recomiendo actualizar unos días después
ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M. Va rápido, pero la plantilla todavía no está terminada y la salida sale desordenada. Estoy esperando a que suban una plantilla oficial a ollama.com“GLM-4.7-Flash es un modelo ligero y de alta eficiencia, la versión gratuita de GLM-4.7, y ofrece baja latencia y alto rendimiento en tareas de programación, razonamiento y generación.
También muestra un gran desempeño en traducción, roleplay y generación estética.”
Para más detalles, ver las notas oficiales de lanzamiento
ahora ya se puede correr localmente una IA de nivel GPT-5-mini incluso en una MacBook con 32GB de RAM
Además, el costo de LLM-as-a-service baja muchísimo: queda en alrededor de 1/10 del precio de Haiku 4.5
GLM 4.7 alcanza para uso diario, pero a veces frustra porque le falta capacidad para entender instrucciones