6 puntos por GN⁺ 2026-02-12 | 4 comentarios | Compartir por WhatsApp
  • Un modelo de lenguaje de gran escala que refuerza la eficiencia de la IA y la capacidad de ejecutar tareas de largo plazo
  • Ampliado frente a su versión anterior a 744 mil millones de parámetros (40 mil millones activos), con 28.5 billones de tokens de preentrenamiento
  • Integra DeepSeek Sparse Attention (DSA) para mantener la capacidad de procesar contextos largos mientras reduce los costos de despliegue
  • Mejora la eficiencia de entrenamiento mediante una nueva infraestructura de aprendizaje por refuerzo asíncrona llamada slime, y registra un rendimiento de primer nivel en diversos benchmarks
  • Publicado como open source, accesible desde Hugging Face, ModelScope y la plataforma Z.ai, y compatible con Claude Code y OpenClaw

Resumen de GLM-5

  • GLM-5 es un modelo diseñado para ejecutar ingeniería de sistemas complejos y tareas de agentes de larga duración
    • En comparación con GLM-4.5, pasó de 355 mil millones de parámetros (32 mil millones activos) a 744 mil millones (40 mil millones activos)
    • Los datos de preentrenamiento se ampliaron de 23 a 28.5 billones de tokens
  • Integra DeepSeek Sparse Attention (DSA) para mantener la capacidad de manejar contextos largos mientras reduce de forma considerable los costos de despliegue
  • Introduce una infraestructura de aprendizaje por refuerzo asíncrona llamada slime para mejorar el throughput y la eficiencia del entrenamiento, permitiendo iteraciones de postentrenamiento más finas

Mejoras de rendimiento y resultados en benchmarks

  • GLM-5 muestra una mejora general de rendimiento frente a GLM-4.7 y se acerca al nivel de Claude Opus 4.5
  • En el conjunto de evaluación interno CC-Bench-V2, obtiene resultados destacados en frontend, backend y tareas de larga duración
  • En Vending Bench 2, ocupa el primer lugar entre los modelos open source, logrando un saldo final de 4,432 dólares en una simulación de negocio de máquinas expendedoras durante 1 año
  • Tiene un rendimiento open source de nivel mundial en razonamiento, coding y tareas de agentes
    • Ejemplos: SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7, entre otros
  • Reduce la brecha con modelos líderes como GPT-5.2 y Gemini 3.0 Pro

Publicación open source y vías de acceso

  • GLM-5 se publica bajo licencia MIT, y los pesos del modelo pueden descargarse desde Hugging Face y ModelScope
  • También puede usarse vía API en Z.ai, BigModel.cn y api.z.ai
  • Es compatible con Claude Code y OpenClaw, lo que permite integrarlo en diversos entornos de desarrollo
  • La plataforma Z.ai ofrece una prueba gratuita

Funciones de oficina y generación de documentos

  • GLM-5 apunta a pasar “del chat al trabajo”, actuando como herramienta de oficina para trabajadores del conocimiento e ingenieros
  • Puede convertir directamente texto o materiales fuente a formatos .docx, .pdf y .xlsx para generar documentos terminados como PRD, exámenes, reportes financieros y menús
  • La aplicación Z.ai ofrece un modo Agent compatible con la generación de PDF/Word/Excel, permitiendo colaboración en múltiples rondas

Soporte para desarrolladores y despliegue

  • Los suscriptores de GLM Coding Plan pueden acceder gradualmente a GLM-5
    • Los usuarios del plan Max pueden activarlo de inmediato con el nombre de modelo "GLM-5"
    • Las solicitudes a GLM-5 consumen más cuota que GLM-4.7
  • Para quienes prefieren un entorno GUI, se ofrece el entorno de desarrollo de agentes Z Code
  • A través del framework OpenClaw, GLM-5 puede usarse como un agente tipo asistente personal que opera en apps y dispositivos

Despliegue local y compatibilidad de hardware

  • GLM-5 es compatible con frameworks de inferencia como vLLM y SGLang, y las guías de despliegue están disponibles en su GitHub oficial
  • También puede ejecutarse en chipsets no NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon, entre otros)
    • Mediante optimización de kernels y cuantización del modelo, logra un throughput razonable

4 comentarios

 
GN⁺ 2026-02-12
Comentarios en Hacker News
  • Pelican vio los resultados generados a través de OpenRouter
    El ave en sí parece una ave sólida, pero no sirve mucho como cuadro de bicicleta
    Enlace relacionado

    • Gracias a Simon por mantener el único sistema de benchmark realmente significativo
      El contexto de la prueba de la bicicleta Pelican se puede ver aquí
    • Creo que esta sí es una prueba realmente importante, saludos a Simon
    • Ahora siento que el benchmark de Pelican ya se quedó atrás
      SVG ya está por todas partes, así que hace falta un escenario nuevo más realista
    • Me pregunto cuántos SVG de un pelícano en bicicleta había antes de que existiera esta prueba
      Me preocupa que estos resultados quizá estén contaminando los datos de entrenamiento
    • Creo que llamar “ave sólida” a un pájaro sin alas es un caso simbólico de la brecha de expectativas de la IA
      Es interesante que la IA diga por sí sola que “hacen falta patas palmeadas”, pero que luego no aparezcan en la imagen real
      Me preocupa la actitud de considerar un 90% de precisión como un “problema resuelto”, como pasa con MMLU o AIME
      Si esto fuera AGI real, debería alcanzar 100% de precisión, pero nos conformamos demasiado fácil
  • Creo que una replicación rápida basada en destilación en el mercado gris es inevitable a futuro
    Antes pensaba que los modelos N-1 y N-2 no serían atractivos, pero ahora hasta eso probablemente baste, porque incluso las preferencias de los usuarios ya parecen estar saturadas
    Opus 4.5 sí fue un salto claro, pero 4.6 no cambió mi flujo de trabajo
    Al final, después del “mayor robo de la humanidad”, parece que vendrá el “mayor karma”
    A los usuarios no les va a importar en absoluto que la IA china haya robado de las big tech de EE. UU.

    • Si las empresas de LLM justifican el uso de datos de entrenamiento, entonces que un destilador entrene con salidas de LLM también debería ser legal bajo la misma lógica
      Se puede argumentar: “solo aprendió como un humano, ¿por qué sería ilegal?”
    • Impedir la destilación debería ser lo ilegal
      Bastaría con crear miles de sitios de contenido generado por IA y publicar en cada post el prompt y la información del modelo
      Así otros podrían rastrearlo “por accidente” y usarlo para entrenamiento
    • Lo que más destaca en Opus 4.6 es la persistencia en tareas largas
      Siento que llega al doble de lejos que antes y ya no quiero volver atrás
    • Pero consume demasiados tokens, así que en eficiencia es un retroceso
  • Los benchmarks recientes son impresionantes, pero la comparación es contra modelos de la generación anterior (Opus 4.5, GPT-5.2)
    Hoy en día, los modelos abiertos suelen tener puntajes altos en benchmarks, pero en uso real decepcionan
    Definitivamente existe el benchmaxxing

    • La crítica a los modelos open-weight se siente demasiado agresiva
      Correr 20 benchmarks tampoco es algo fácil, y la nueva generación de modelos salió hace apenas 5 días
      Muchos desarrolladores están atrapados en la adoración a los modelos cerrados y no entienden que los mismos prompts no funcionan igual en otras familias de modelos
      Uso GLM-4.7 con frecuencia y está al nivel de Sonnet 4.5; GLM-5 probablemente esté al nivel de Opus 4.5
    • Si GLM-4.7 está al nivel de 4.5 o 5.2, eso por sí solo ya es un salto enorme
    • Siento que los modelos actuales al final no son más que generadores de tokens
      En pruebas a ciegas son tan parecidos que casi no se pueden distinguir
      Incluso comparando respuestas de Claude y ChatGPT, casi son iguales
      Para la mayoría de usos, al final basta con un modelo de nivel Toyota
    • El problema son los límites de RLHF (aprendizaje por refuerzo con retroalimentación humana)
      Puede haber innovación algorítmica, pero el costo de generar datos humanos es demasiado alto y no escala
      Los modelos open source todavía tienen muchos errores de sintaxis, mientras que los frontier models casi ya resolvieron eso
    • Anthropic, OpenAI y Google mejoran sus modelos con datos reales de usuarios,
      pero los laboratorios chinos están más centrados en benchmarks, y de ahí sale la diferencia
      El self-hosting y la mejora continua son difíciles de compatibilizar
  • Gracias al open source chino, parece que podremos tener inteligencia autoalojada
    En costo no es eficiente, pero me gusta que pueda funcionar de forma independiente sin conexión a internet
    Al final, macOS es la única opción de consumo para correr modelos grandes en local

    • Yo suelo toparme con el límite de suscripción de Claude Max, así que me sostengo con 2x RTX3090 y modelos Qwen3 cuantizados
      El self-hosting también vale la pena en términos de privacidad y disponibilidad
      Sobre todo porque hace falta una alternativa por si la regulación digital de EE. UU. se vuelve más dura
    • Aunque sean modelos open-weight, los datos de entrenamiento y los criterios de censura siguen siendo privados
      Aun así, una ventaja es que el fine-tuning permite corregir sesgos
    • Una máquina Strix Halo con 128 GB de VRAM anda por unos 3 mil dólares, y permite correr modelos bastante decentes en local
      Recomiendo GPT-OSS 120GB, Qwen Coder Next 80B y Step 3.5 Flash
      Espero que en 1 o 2 años incluso el hardware de consumo pueda mover modelos de clase 512GB
    • En vez de macOS, también es buena idea tener en casa una caja de inferencia headless con Linux
      Es el regreso de la red doméstica
    • Yo creo que más importante que hostearlo uno mismo es la comoditización del hosting
      La clave es la libertad de poder cambiar de proveedor en cualquier momento
  • Llevo unas semanas usando GLM-4.7 y está a un nivel parecido al de Sonnet
    Eso sí, necesita instrucciones más claras
    Para tareas grandes sigo usando la familia de Anthropic, pero para tareas pequeñas y bien definidas GLM tiene la mejor relación precio-rendimiento

    • Mi experiencia también ha sido parecida
      GLM-4.7, si lo dejas solo, tiene una tendencia a inventarse todo un mundo innecesariamente
      Pero en tareas pequeñas se parece a Sonnet, y como es muy barato, sirve bien como modelo auxiliar
    • Yo he usado solo Sonnet durante los últimos 6 a 8 meses, pero Opus suele tener un bug de atracón de tokens
      Si los modelos abiertos avanzan unos 6 meses más, estaría dispuesto a cambiarme
  • MiniMax M2.5 también está disponible desde hoy en Chat UI
    GLM es mejor para programar, pero uso MiniMax con frecuencia para tareas cotidianas por su velocidad y capacidad de tool calling

  • El nuevo modelo ya fue publicado en OpenRouter
    En mis benchmarks personales, la capacidad de seguir instrucciones fue muy débil
    La prueba sigue el formato de chat.md + mcps, y no pudo ejecutarla bien

    • Siento que los formatos personalizados de tool calling se entrenan distinto en cada modelo, así que es difícil lograr consistencia
      Me da curiosidad saber qué resultados obtuviste con otros frontier models
    • Me gusta la idea de chat.md
      Yo también estaba haciendo un editor de texto basado en keybindings de vim, y este enfoque podría servir como inspiración de UI
      Estoy pensando en agregar una función para plegar texto innecesario
    • El problema también podría ser la calidad del proveedor de OpenRouter
      A veces el rendimiento es malo
    • OpenRouter a veces hospeda modelos cuantizados, y eso baja la calidad
      Si se puede, es mejor usar directamente al proveedor original
  • Siento que GLM-4.7-Flash es el primer modelo inteligente realmente utilizable para programación local
    Está a un nivel parecido al de Claude 4.5 Haiku, y como el proceso de razonamiento es transparente, se puede entender por qué tomó ciertas decisiones
    Es mucho mejor que Devstral 2 Small o Qwen-Coder-Next

    • minimax-m.2 también anda bastante cerca
  • Estoy usando GLM 4.7 en opencode
    No es el mejor, pero gracias a sus límites de uso generosos se puede usar todo el día
    Todavía hay acceso limitado al modelo nuevo, pero tengo expectativas

  • Probé un rato el modelo nuevo en opencode y me pareció bastante impresionante
    No es una innovación radical, pero sí mejora claramente frente a 4.7
    La memoria y la estabilidad en tareas largas mejoraron de forma visible

 
jinifor 2026-02-12

Parece que subió el precio de la suscripción.

 
princox 2026-02-13

Ya quitaron el descuento del 50% que daban al registrarte por primera vez..

 
fanotify 2026-02-12

Con Max, la oferta súper anticipada era de $360 al año, pero ahora quedó en $672...