- Un modelo de lenguaje de gran escala que refuerza la eficiencia de la IA y la capacidad de ejecutar tareas de largo plazo
- Ampliado frente a su versión anterior a 744 mil millones de parámetros (40 mil millones activos), con 28.5 billones de tokens de preentrenamiento
- Integra DeepSeek Sparse Attention (DSA) para mantener la capacidad de procesar contextos largos mientras reduce los costos de despliegue
- Mejora la eficiencia de entrenamiento mediante una nueva infraestructura de aprendizaje por refuerzo asíncrona llamada
slime, y registra un rendimiento de primer nivel en diversos benchmarks
- Publicado como open source, accesible desde Hugging Face, ModelScope y la plataforma Z.ai, y compatible con Claude Code y OpenClaw
Resumen de GLM-5
- GLM-5 es un modelo diseñado para ejecutar ingeniería de sistemas complejos y tareas de agentes de larga duración
- En comparación con GLM-4.5, pasó de 355 mil millones de parámetros (32 mil millones activos) a 744 mil millones (40 mil millones activos)
- Los datos de preentrenamiento se ampliaron de 23 a 28.5 billones de tokens
- Integra DeepSeek Sparse Attention (DSA) para mantener la capacidad de manejar contextos largos mientras reduce de forma considerable los costos de despliegue
- Introduce una infraestructura de aprendizaje por refuerzo asíncrona llamada slime para mejorar el throughput y la eficiencia del entrenamiento, permitiendo iteraciones de postentrenamiento más finas
Mejoras de rendimiento y resultados en benchmarks
- GLM-5 muestra una mejora general de rendimiento frente a GLM-4.7 y se acerca al nivel de Claude Opus 4.5
- En el conjunto de evaluación interno CC-Bench-V2, obtiene resultados destacados en frontend, backend y tareas de larga duración
- En Vending Bench 2, ocupa el primer lugar entre los modelos open source, logrando un saldo final de 4,432 dólares en una simulación de negocio de máquinas expendedoras durante 1 año
- Tiene un rendimiento open source de nivel mundial en razonamiento, coding y tareas de agentes
- Ejemplos: SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7, entre otros
- Reduce la brecha con modelos líderes como GPT-5.2 y Gemini 3.0 Pro
Publicación open source y vías de acceso
- GLM-5 se publica bajo licencia MIT, y los pesos del modelo pueden descargarse desde Hugging Face y ModelScope
- También puede usarse vía API en Z.ai, BigModel.cn y api.z.ai
- Es compatible con Claude Code y OpenClaw, lo que permite integrarlo en diversos entornos de desarrollo
- La plataforma Z.ai ofrece una prueba gratuita
Funciones de oficina y generación de documentos
- GLM-5 apunta a pasar “del chat al trabajo”, actuando como herramienta de oficina para trabajadores del conocimiento e ingenieros
- Puede convertir directamente texto o materiales fuente a formatos .docx, .pdf y .xlsx para generar documentos terminados como PRD, exámenes, reportes financieros y menús
- La aplicación Z.ai ofrece un modo Agent compatible con la generación de PDF/Word/Excel, permitiendo colaboración en múltiples rondas
Soporte para desarrolladores y despliegue
- Los suscriptores de GLM Coding Plan pueden acceder gradualmente a GLM-5
- Los usuarios del plan Max pueden activarlo de inmediato con el nombre de modelo
"GLM-5"
- Las solicitudes a GLM-5 consumen más cuota que GLM-4.7
- Para quienes prefieren un entorno GUI, se ofrece el entorno de desarrollo de agentes Z Code
- A través del framework OpenClaw, GLM-5 puede usarse como un agente tipo asistente personal que opera en apps y dispositivos
Despliegue local y compatibilidad de hardware
- GLM-5 es compatible con frameworks de inferencia como vLLM y SGLang, y las guías de despliegue están disponibles en su GitHub oficial
- También puede ejecutarse en chipsets no NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon, entre otros)
- Mediante optimización de kernels y cuantización del modelo, logra un throughput razonable
4 comentarios
Comentarios en Hacker News
Pelican vio los resultados generados a través de OpenRouter
El ave en sí parece una ave sólida, pero no sirve mucho como cuadro de bicicleta
Enlace relacionado
El contexto de la prueba de la bicicleta Pelican se puede ver aquí
SVG ya está por todas partes, así que hace falta un escenario nuevo más realista
Me preocupa que estos resultados quizá estén contaminando los datos de entrenamiento
Es interesante que la IA diga por sí sola que “hacen falta patas palmeadas”, pero que luego no aparezcan en la imagen real
Me preocupa la actitud de considerar un 90% de precisión como un “problema resuelto”, como pasa con MMLU o AIME
Si esto fuera AGI real, debería alcanzar 100% de precisión, pero nos conformamos demasiado fácil
Creo que una replicación rápida basada en destilación en el mercado gris es inevitable a futuro
Antes pensaba que los modelos N-1 y N-2 no serían atractivos, pero ahora hasta eso probablemente baste, porque incluso las preferencias de los usuarios ya parecen estar saturadas
Opus 4.5 sí fue un salto claro, pero 4.6 no cambió mi flujo de trabajo
Al final, después del “mayor robo de la humanidad”, parece que vendrá el “mayor karma”
A los usuarios no les va a importar en absoluto que la IA china haya robado de las big tech de EE. UU.
Se puede argumentar: “solo aprendió como un humano, ¿por qué sería ilegal?”
Bastaría con crear miles de sitios de contenido generado por IA y publicar en cada post el prompt y la información del modelo
Así otros podrían rastrearlo “por accidente” y usarlo para entrenamiento
Siento que llega al doble de lejos que antes y ya no quiero volver atrás
Los benchmarks recientes son impresionantes, pero la comparación es contra modelos de la generación anterior (Opus 4.5, GPT-5.2)
Hoy en día, los modelos abiertos suelen tener puntajes altos en benchmarks, pero en uso real decepcionan
Definitivamente existe el benchmaxxing
Correr 20 benchmarks tampoco es algo fácil, y la nueva generación de modelos salió hace apenas 5 días
Muchos desarrolladores están atrapados en la adoración a los modelos cerrados y no entienden que los mismos prompts no funcionan igual en otras familias de modelos
Uso GLM-4.7 con frecuencia y está al nivel de Sonnet 4.5; GLM-5 probablemente esté al nivel de Opus 4.5
En pruebas a ciegas son tan parecidos que casi no se pueden distinguir
Incluso comparando respuestas de Claude y ChatGPT, casi son iguales
Para la mayoría de usos, al final basta con un modelo de nivel Toyota
Puede haber innovación algorítmica, pero el costo de generar datos humanos es demasiado alto y no escala
Los modelos open source todavía tienen muchos errores de sintaxis, mientras que los frontier models casi ya resolvieron eso
pero los laboratorios chinos están más centrados en benchmarks, y de ahí sale la diferencia
El self-hosting y la mejora continua son difíciles de compatibilizar
Gracias al open source chino, parece que podremos tener inteligencia autoalojada
En costo no es eficiente, pero me gusta que pueda funcionar de forma independiente sin conexión a internet
Al final, macOS es la única opción de consumo para correr modelos grandes en local
El self-hosting también vale la pena en términos de privacidad y disponibilidad
Sobre todo porque hace falta una alternativa por si la regulación digital de EE. UU. se vuelve más dura
Aun así, una ventaja es que el fine-tuning permite corregir sesgos
Recomiendo GPT-OSS 120GB, Qwen Coder Next 80B y Step 3.5 Flash
Espero que en 1 o 2 años incluso el hardware de consumo pueda mover modelos de clase 512GB
Es el regreso de la red doméstica
La clave es la libertad de poder cambiar de proveedor en cualquier momento
Llevo unas semanas usando GLM-4.7 y está a un nivel parecido al de Sonnet
Eso sí, necesita instrucciones más claras
Para tareas grandes sigo usando la familia de Anthropic, pero para tareas pequeñas y bien definidas GLM tiene la mejor relación precio-rendimiento
GLM-4.7, si lo dejas solo, tiene una tendencia a inventarse todo un mundo innecesariamente
Pero en tareas pequeñas se parece a Sonnet, y como es muy barato, sirve bien como modelo auxiliar
Si los modelos abiertos avanzan unos 6 meses más, estaría dispuesto a cambiarme
MiniMax M2.5 también está disponible desde hoy en Chat UI
GLM es mejor para programar, pero uso MiniMax con frecuencia para tareas cotidianas por su velocidad y capacidad de tool calling
El nuevo modelo ya fue publicado en OpenRouter
En mis benchmarks personales, la capacidad de seguir instrucciones fue muy débil
La prueba sigue el formato de chat.md + mcps, y no pudo ejecutarla bien
Me da curiosidad saber qué resultados obtuviste con otros frontier models
Yo también estaba haciendo un editor de texto basado en keybindings de vim, y este enfoque podría servir como inspiración de UI
Estoy pensando en agregar una función para plegar texto innecesario
A veces el rendimiento es malo
Si se puede, es mejor usar directamente al proveedor original
Siento que GLM-4.7-Flash es el primer modelo inteligente realmente utilizable para programación local
Está a un nivel parecido al de Claude 4.5 Haiku, y como el proceso de razonamiento es transparente, se puede entender por qué tomó ciertas decisiones
Es mucho mejor que Devstral 2 Small o Qwen-Coder-Next
Estoy usando GLM 4.7 en opencode
No es el mejor, pero gracias a sus límites de uso generosos se puede usar todo el día
Todavía hay acceso limitado al modelo nuevo, pero tengo expectativas
Probé un rato el modelo nuevo en opencode y me pareció bastante impresionante
No es una innovación radical, pero sí mejora claramente frente a 4.7
La memoria y la estabilidad en tareas largas mejoraron de forma visible
Parece que subió el precio de la suscripción.
Ya quitaron el descuento del 50% que daban al registrarte por primera vez..
Con Max, la oferta súper anticipada era de $360 al año, pero ahora quedó en $672...