GLM-5 presentado: un modelo orientado a la ingeniería de sistemas complejos y tareas de agentes de larga duración

(z.ai)

6 puntos por GN⁺ 2026-02-12 | 4 comentarios | Compartir por WhatsApp

Un modelo de lenguaje de gran escala que refuerza la eficiencia de la IA y la capacidad de ejecutar tareas de largo plazo
Ampliado frente a su versión anterior a 744 mil millones de parámetros (40 mil millones activos), con 28.5 billones de tokens de preentrenamiento
Integra DeepSeek Sparse Attention (DSA) para mantener la capacidad de procesar contextos largos mientras reduce los costos de despliegue
Mejora la eficiencia de entrenamiento mediante una nueva infraestructura de aprendizaje por refuerzo asíncrona llamada slime, y registra un rendimiento de primer nivel en diversos benchmarks
Publicado como open source, accesible desde Hugging Face, ModelScope y la plataforma Z.ai, y compatible con Claude Code y OpenClaw

Resumen de GLM-5

GLM-5 es un modelo diseñado para ejecutar ingeniería de sistemas complejos y tareas de agentes de larga duración
- En comparación con GLM-4.5, pasó de 355 mil millones de parámetros (32 mil millones activos) a 744 mil millones (40 mil millones activos)
- Los datos de preentrenamiento se ampliaron de 23 a 28.5 billones de tokens
Integra DeepSeek Sparse Attention (DSA) para mantener la capacidad de manejar contextos largos mientras reduce de forma considerable los costos de despliegue
Introduce una infraestructura de aprendizaje por refuerzo asíncrona llamada slime para mejorar el throughput y la eficiencia del entrenamiento, permitiendo iteraciones de postentrenamiento más finas

Mejoras de rendimiento y resultados en benchmarks

GLM-5 muestra una mejora general de rendimiento frente a GLM-4.7 y se acerca al nivel de Claude Opus 4.5
En el conjunto de evaluación interno CC-Bench-V2, obtiene resultados destacados en frontend, backend y tareas de larga duración
En Vending Bench 2, ocupa el primer lugar entre los modelos open source, logrando un saldo final de 4,432 dólares en una simulación de negocio de máquinas expendedoras durante 1 año
Tiene un rendimiento open source de nivel mundial en razonamiento, coding y tareas de agentes
- Ejemplos: SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7, entre otros
Reduce la brecha con modelos líderes como GPT-5.2 y Gemini 3.0 Pro

Publicación open source y vías de acceso

GLM-5 se publica bajo licencia MIT, y los pesos del modelo pueden descargarse desde Hugging Face y ModelScope
También puede usarse vía API en Z.ai, BigModel.cn y api.z.ai
Es compatible con Claude Code y OpenClaw, lo que permite integrarlo en diversos entornos de desarrollo
La plataforma Z.ai ofrece una prueba gratuita

Funciones de oficina y generación de documentos

GLM-5 apunta a pasar “del chat al trabajo”, actuando como herramienta de oficina para trabajadores del conocimiento e ingenieros
Puede convertir directamente texto o materiales fuente a formatos .docx, .pdf y .xlsx para generar documentos terminados como PRD, exámenes, reportes financieros y menús
La aplicación Z.ai ofrece un modo Agent compatible con la generación de PDF/Word/Excel, permitiendo colaboración en múltiples rondas

Soporte para desarrolladores y despliegue

Los suscriptores de GLM Coding Plan pueden acceder gradualmente a GLM-5
- Los usuarios del plan Max pueden activarlo de inmediato con el nombre de modelo "GLM-5"
- Las solicitudes a GLM-5 consumen más cuota que GLM-4.7
Para quienes prefieren un entorno GUI, se ofrece el entorno de desarrollo de agentes Z Code
A través del framework OpenClaw, GLM-5 puede usarse como un agente tipo asistente personal que opera en apps y dispositivos

Despliegue local y compatibilidad de hardware

GLM-5 es compatible con frameworks de inferencia como vLLM y SGLang, y las guías de despliegue están disponibles en su GitHub oficial
También puede ejecutarse en chipsets no NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon, entre otros)
- Mediante optimización de kernels y cuantización del modelo, logra un throughput razonable

4 comentarios

GN⁺ 2026-02-12

Comentarios en Hacker News

Pelican vio los resultados generados a través de OpenRouter
El ave en sí parece una ave sólida, pero no sirve mucho como cuadro de bicicleta
Enlace relacionado
- Gracias a Simon por mantener el único sistema de benchmark realmente significativo
  El contexto de la prueba de la bicicleta Pelican se puede ver aquí
- Creo que esta sí es una prueba realmente importante, saludos a Simon
- Ahora siento que el benchmark de Pelican ya se quedó atrás
  SVG ya está por todas partes, así que hace falta un escenario nuevo más realista
- Me pregunto cuántos SVG de un pelícano en bicicleta había antes de que existiera esta prueba
  Me preocupa que estos resultados quizá estén contaminando los datos de entrenamiento
- Creo que llamar “ave sólida” a un pájaro sin alas es un caso simbólico de la brecha de expectativas de la IA
  Es interesante que la IA diga por sí sola que “hacen falta patas palmeadas”, pero que luego no aparezcan en la imagen real
  Me preocupa la actitud de considerar un 90% de precisión como un “problema resuelto”, como pasa con MMLU o AIME
  Si esto fuera AGI real, debería alcanzar 100% de precisión, pero nos conformamos demasiado fácil
Creo que una replicación rápida basada en destilación en el mercado gris es inevitable a futuro
Antes pensaba que los modelos N-1 y N-2 no serían atractivos, pero ahora hasta eso probablemente baste, porque incluso las preferencias de los usuarios ya parecen estar saturadas
Opus 4.5 sí fue un salto claro, pero 4.6 no cambió mi flujo de trabajo
Al final, después del “mayor robo de la humanidad”, parece que vendrá el “mayor karma”
A los usuarios no les va a importar en absoluto que la IA china haya robado de las big tech de EE. UU.
- Si las empresas de LLM justifican el uso de datos de entrenamiento, entonces que un destilador entrene con salidas de LLM también debería ser legal bajo la misma lógica
  Se puede argumentar: “solo aprendió como un humano, ¿por qué sería ilegal?”
- Impedir la destilación debería ser lo ilegal
  Bastaría con crear miles de sitios de contenido generado por IA y publicar en cada post el prompt y la información del modelo
  Así otros podrían rastrearlo “por accidente” y usarlo para entrenamiento
- Lo que más destaca en Opus 4.6 es la persistencia en tareas largas
  Siento que llega al doble de lejos que antes y ya no quiero volver atrás
- Pero consume demasiados tokens, así que en eficiencia es un retroceso
Los benchmarks recientes son impresionantes, pero la comparación es contra modelos de la generación anterior (Opus 4.5, GPT-5.2)
Hoy en día, los modelos abiertos suelen tener puntajes altos en benchmarks, pero en uso real decepcionan
Definitivamente existe el benchmaxxing
- La crítica a los modelos open-weight se siente demasiado agresiva
  Correr 20 benchmarks tampoco es algo fácil, y la nueva generación de modelos salió hace apenas 5 días
  Muchos desarrolladores están atrapados en la adoración a los modelos cerrados y no entienden que los mismos prompts no funcionan igual en otras familias de modelos
  Uso GLM-4.7 con frecuencia y está al nivel de Sonnet 4.5; GLM-5 probablemente esté al nivel de Opus 4.5
- Si GLM-4.7 está al nivel de 4.5 o 5.2, eso por sí solo ya es un salto enorme
- Siento que los modelos actuales al final no son más que generadores de tokens
  En pruebas a ciegas son tan parecidos que casi no se pueden distinguir
  Incluso comparando respuestas de Claude y ChatGPT, casi son iguales
  Para la mayoría de usos, al final basta con un modelo de nivel Toyota
- El problema son los límites de RLHF (aprendizaje por refuerzo con retroalimentación humana)
  Puede haber innovación algorítmica, pero el costo de generar datos humanos es demasiado alto y no escala
  Los modelos open source todavía tienen muchos errores de sintaxis, mientras que los frontier models casi ya resolvieron eso
- Anthropic, OpenAI y Google mejoran sus modelos con datos reales de usuarios,
  pero los laboratorios chinos están más centrados en benchmarks, y de ahí sale la diferencia
  El self-hosting y la mejora continua son difíciles de compatibilizar
Gracias al open source chino, parece que podremos tener inteligencia autoalojada
En costo no es eficiente, pero me gusta que pueda funcionar de forma independiente sin conexión a internet
Al final, macOS es la única opción de consumo para correr modelos grandes en local
- Yo suelo toparme con el límite de suscripción de Claude Max, así que me sostengo con 2x RTX3090 y modelos Qwen3 cuantizados
  El self-hosting también vale la pena en términos de privacidad y disponibilidad
  Sobre todo porque hace falta una alternativa por si la regulación digital de EE. UU. se vuelve más dura
- Aunque sean modelos open-weight, los datos de entrenamiento y los criterios de censura siguen siendo privados
  Aun así, una ventaja es que el fine-tuning permite corregir sesgos
- Una máquina Strix Halo con 128 GB de VRAM anda por unos 3 mil dólares, y permite correr modelos bastante decentes en local
  Recomiendo GPT-OSS 120GB, Qwen Coder Next 80B y Step 3.5 Flash
  Espero que en 1 o 2 años incluso el hardware de consumo pueda mover modelos de clase 512GB
- En vez de macOS, también es buena idea tener en casa una caja de inferencia headless con Linux
  Es el regreso de la red doméstica
- Yo creo que más importante que hostearlo uno mismo es la comoditización del hosting
  La clave es la libertad de poder cambiar de proveedor en cualquier momento
Llevo unas semanas usando GLM-4.7 y está a un nivel parecido al de Sonnet
Eso sí, necesita instrucciones más claras
Para tareas grandes sigo usando la familia de Anthropic, pero para tareas pequeñas y bien definidas GLM tiene la mejor relación precio-rendimiento
- Mi experiencia también ha sido parecida
  GLM-4.7, si lo dejas solo, tiene una tendencia a inventarse todo un mundo innecesariamente
  Pero en tareas pequeñas se parece a Sonnet, y como es muy barato, sirve bien como modelo auxiliar
- Yo he usado solo Sonnet durante los últimos 6 a 8 meses, pero Opus suele tener un bug de atracón de tokens
  Si los modelos abiertos avanzan unos 6 meses más, estaría dispuesto a cambiarme
MiniMax M2.5 también está disponible desde hoy en Chat UI
GLM es mejor para programar, pero uso MiniMax con frecuencia para tareas cotidianas por su velocidad y capacidad de tool calling
El nuevo modelo ya fue publicado en OpenRouter
En mis benchmarks personales, la capacidad de seguir instrucciones fue muy débil
La prueba sigue el formato de chat.md + mcps, y no pudo ejecutarla bien
- Siento que los formatos personalizados de tool calling se entrenan distinto en cada modelo, así que es difícil lograr consistencia
  Me da curiosidad saber qué resultados obtuviste con otros frontier models
- Me gusta la idea de chat.md
  Yo también estaba haciendo un editor de texto basado en keybindings de vim, y este enfoque podría servir como inspiración de UI
  Estoy pensando en agregar una función para plegar texto innecesario
- El problema también podría ser la calidad del proveedor de OpenRouter
  A veces el rendimiento es malo
- OpenRouter a veces hospeda modelos cuantizados, y eso baja la calidad
  Si se puede, es mejor usar directamente al proveedor original
Siento que GLM-4.7-Flash es el primer modelo inteligente realmente utilizable para programación local
Está a un nivel parecido al de Claude 4.5 Haiku, y como el proceso de razonamiento es transparente, se puede entender por qué tomó ciertas decisiones
Es mucho mejor que Devstral 2 Small o Qwen-Coder-Next
- minimax-m.2 también anda bastante cerca
Estoy usando GLM 4.7 en opencode
No es el mejor, pero gracias a sus límites de uso generosos se puede usar todo el día
Todavía hay acceso limitado al modelo nuevo, pero tengo expectativas
Probé un rato el modelo nuevo en opencode y me pareció bastante impresionante
No es una innovación radical, pero sí mejora claramente frente a 4.7
La memoria y la estabilidad en tareas largas mejoraron de forma visible

jinifor 2026-02-12

Parece que subió el precio de la suscripción.

princox 2026-02-13

Ya quitaron el descuento del 50% que daban al registrarte por primera vez..

fanotify 2026-02-12

Con Max, la oferta súper anticipada era de $360 al año, pero ahora quedó en $672...