- GLM-4.5 es un modelo de lenguaje grande open source de Mixture-of-Experts (MoE), con un rendimiento sobresaliente en agencia, razonamiento y codificación
- Este modelo evolucionó mediante entrenamiento multietapa con 23T tokens, iteración de modelos expertos y aprendizaje por refuerzo
- Registró resultados de primer nivel en diversos benchmarks clave como TAU-Bench, AIME 24 y SWE-bench Verified
- Ofrece un rendimiento eficiente incluso con una menor cantidad de parámetros, y iguala o supera a importantes modelos comerciales
- Se publicaron GLM-4.5 y su versión pequeña GLM-4.5-Air para su uso en investigación y desarrollo de sistemas de IA
Resumen general
- GLM-4.5 es un modelo de lenguaje grande open source de Mixture-of-Experts (MoE) con 355 mil millones de parámetros totales y 32 mil millones de parámetros activos
- Aplica un enfoque híbrido de razonamiento que admite tanto el modo de pensamiento profundo (Thinking) como el modo de respuesta inmediata (Direct Response)
- Pasó por aprendizaje multietapa con 23 billones de tokens, iteración de modelos expertos y post-entrenamiento basado en aprendizaje por refuerzo
- Como resultado, logró puntuaciones altas en tareas de agencia (Agentic), razonamiento (Reasoning) y codificación (Coding·ARC)
- Registró 70.1% en TAU-Bench, 91.0% en AIME 24 y 64.2% en SWE-bench Verified
- Frente a modelos competidores, GLM-4.5 ocupa el puesto 3 general y el puesto 2 en benchmarks de agentes con menos parámetros
- Se publicaron dos versiones: el modelo grande GLM-4.5 (355 mil millones de parámetros) y la versión reducida GLM-4.5-Air (106 mil millones de parámetros)
- El código completo, los modelos y los detalles están disponibles en el GitHub oficial (https://github.com/zai-org/GLM-4.5)
Evaluación de rendimiento de LLM: benchmarks de agencia, razonamiento y codificación
- Se probaron GLM-4.5 y otros modelos globales destacados en 12 benchmarks representativos (MMLU-Pro, AIME 24, SWE-Bench Verified, etc.)
- GLM-4.5 obtuvo el puesto 3 en el ranking promedio general, y GLM-4.5-Air quedó en el puesto 6
- En puntuación de agencia, quedó 2.º detrás de OpenAI o3, y en benchmarks de codificación logró el 3.º lugar, muy cerca de Claude Sonnet 4
- GLM-4.5 muestra un rendimiento similar con la mitad de los parámetros de DeepSeek-R1 y un tercio de los de Kimi K2
- En relación entre rendimiento en SWE-bench Verified y cantidad de parámetros, GLM-4.5 y GLM-4.5-Air se ubican en la Pareto Frontier
- Los datos de rendimiento corresponden al 28 de julio de 2025
Introducción
- Los modelos de lenguaje grandes (LLM) están evolucionando rápidamente de repositorios de datos de propósito general a solucionadores de problemas de propósito general
- AGI (Artificial General Intelligence), el objetivo final de la inteligencia artificial, apunta a modelos con capacidades cognitivas a nivel humano en múltiples dominios
- Para lograrlo, se requiere una integración de resolución de problemas complejos, generalización y capacidad de auto-mejora
- Las tres capacidades clave más importantes para el trabajo real y la resolución de problemas profesionales complejos son las siguientes:
- Capacidad agéntica: interacción con herramientas y con el mundo exterior
- Razonamiento compuesto: resolución compleja y paso a paso de problemas en matemáticas/ciencias, etc.
- Codificación avanzada: capacidad de realizar ingeniería de software real
- Los modelos comerciales SOTA existentes (OpenAI, Anthropic) muestran rendimiento especializado en áreas individuales, pero entre los modelos open source aún faltan modelos públicos sobresalientes en las tres áreas a la vez
Presentación de los modelos GLM-4.5 y GLM-4.5-Air
- GLM-4.5 y GLM-4.5-Air muestran un rendimiento de nivel líder open source en agencia, razonamiento y codificación
- Ambos modelos admiten modo híbrido de razonamiento
- Thinking Mode destaca en razonamiento complejo y capacidades agénticas
- Non-thinking Mode está especializado en respuestas rápidas
- Resultados principales de GLM-4.5:
- Agencia: TAU-Bench 70.1%, BFCL v3 77.8%, BrowseComp 26.4% (por encima de modelos comerciales competidores)
- Razonamiento: AIME 24 91.0%, GPQA 79.1%, LiveCodeBench 72.9%, HLE 14.4%
- Codificación: SWE-bench Verified 64.2%, Terminal-Bench 37.5% (por encima de GPT-4.1 y Gemini-2.5-pro, y cerca de Claude Sonnet 4)
- GLM-4.5-Air, con 106 mil millones de parámetros, iguala o supera a Qwen3-235B-A22B y MiniMax-M1 incluso entre modelos de la escala de 100 mil millones
Estado y características del rendimiento en benchmarks
- Tanto GLM-4.5 como GLM-4.5-Air lograron posiciones altas en 12 benchmarks principales
- GLM-4.5 destaca por su rendimiento equilibrado en agencia, razonamiento y codificación, además de su eficiencia en parámetros
- Alcanzó la zona de máxima eficiencia (Pareto Frontier) en relación entre cantidad de parámetros y rendimiento en SWE-bench Verified
- Se realizó una comparación detallada de rendimiento junto con varios modelos comerciales y open source
Publicación y soporte open source
- Los modelos GLM-4.5/GLM-4.5-Air se publicaron no solo en Z.ai y BigModel.cn, sino también en Huggingface (https://huggingface.co/zai-org/GLM-4.5)
- Para garantizar la reproducibilidad de los benchmarks, también se ofrece como open source el toolkit de evaluación (https://github.com/zai-org/glm-simple-evals)
Preentrenamiento
Arquitectura
- La serie GLM-4.5 adopta una arquitectura Mixture-of-Experts (MoE), lo que incrementa significativamente la eficiencia computacional del entrenamiento y la inferencia
- En las capas MoE aplica loss-free balance routing y compuertas sigmoides
- A diferencia de DeepSeek-V3 y Kimi K2, reduce el ancho del modelo (dimensión oculta, número de expertos enrutados) y aumenta la profundidad (número de capas). Un modelo más profundo resulta más efectivo para mejorar la capacidad de razonamiento
- En Self-Attention aplica Grouped-Query Attention + partial RoPE, con 96 attention heads para una configuración de 2.5× attention heads sobre una dimensión oculta de 5120
- Se confirmó que aumentar la cantidad de heads no afecta la pérdida de entrenamiento, pero sí tiene un efecto positivo en el razonamiento real y en el rendimiento de benchmarks
- La aplicación de QK-Norm mejora la estabilidad de los valores de attention logit
- Tanto GLM-4.5 como GLM-4.5-Air agregan capas MTP (Multi-Token Prediction) basadas en capas MoE, para soportar speculative decoding durante la inferencia
- En el proceso de conteo de parámetros de arquitectura, se incluyen los parámetros de las capas MTP, pero no los embeddings de palabras ni la capa de salida
Conclusión y efecto esperado
- GLM-4.5 y GLM-4.5-Air son modelos de lenguaje de próxima generación que reúnen alto rendimiento, eficiencia y versatilidad en el mercado open source de IA
- Destacan por su capacidad integrada para resolver problemas difíciles en múltiples áreas, su competitividad frente a modelos comerciales y su eficiencia en parámetros
- Amplían su potencial de contribución como base de innovación para los modelos de lenguaje grandes open source en la academia, la industria y la investigación de desarrolladores en general
2 comentarios
Lo mismo en los comentarios de Hacker News, y en el foro LocalLLaMA de Reddit también dicen que GLM está bastante bien
GLM 4.5 AIR IS SO FKING GOODDD
Opiniones en Hacker News
Da gusto que este paper, a diferencia de las típicas entradas de blog de lanzamiento de modelos que se ven siempre, sí entre en profundidad.
El equipo de Zhipu/Tsinghua explica en detalle no solo el "qué", sino también el "cómo", así que es información especialmente interesante para quienes quieren construir o aprovechar este tipo de modelos por su cuenta.
En particular, me impresionó la metodología de post-training de la Sección 3.
Resulta atractiva la estrategia de crear por separado "modelos expertos" especializados en razonamiento/agentes/chat, y luego destilar esas capacidades en el modelo final integrado.
Es un intento mucho más sistemático de resolver las limitaciones de un modelo generalista que hace de todo a medias.
En vez de simplemente mezclar datos, en esencia diseñaron un sistema donde un modelo general aprende de un grupo de expertos.
Un resultado interesante de los experimentos de RL es que aplicar RL de una sola vez sobre todo el contexto de 64K rindió mejor que el RL por etapas (ver Fig. 6).
Muchos equipos probablemente pensarían lo contrario, pero los resultados reales muestran otra cosa.
Y también me gustó ese pequeño pero inteligente detalle de usar plantillas XML para el formato de llamadas a funciones, lo que evita los problemas de escape en JSON (ver Fig. 4).
En la práctica, escapar código dentro de JSON suele ser un dolor de cabeza enorme.
El rendimiento en SWE-bench también es bastante sólido, al punto de compararse con modelos mucho más grandes o comerciales.
Lo que me da curiosidad de cara al futuro es si este método de entrenamiento híbrido también funcionará en entornos distintos de las evaluaciones estilo ARC.
Por ejemplo, me pregunto si el desempeño del agente se mantendrá en flujos de trabajo complejos del mundo real, donde no hay documentación de API, los errores son frecuentes y las entradas también son ambiguas.
Me pregunto si este tipo de ajustes de post/mid-training realmente son necesarios en aprendizajes de dominios específicos donde ya hay abundancia de datos y etiquetas bien validadas.
Quisiera saber si a equipos pequeños les basta con seguir bien un stack moderno de entrenamiento a escala, o si de verdad hay una diferencia grande cuando no se usan estas técnicas.
Espero que no parezca que estoy siendo quisquilloso, pero el estilo del texto transmite muy fuertemente esa sensación típica de LLM.
Ya había visto la misma observación antes enlace.
Creo que señalar estas cosas ayuda a mantener sano el entorno en línea.
Llevo bastante tiempo usando el modelo de código GLM-4.5 y el rendimiento es realmente sobresaliente.
Incluso alguna vez lo confundí con Claude 4 cuando corría GLM-4.5 en mi agente de programación en desarrollo, Octofriend.
En mi experiencia, Claude se siente más fuerte cuando necesita tomar toda la base de código como contexto y considerar interacciones del sistema.
En cambio, GLM-4.5 es más "honesto" y no suele hacer cosas como Claude, que a menudo modifica los tests para esquivar el problema discretamente.
Ambos están a muy buen nivel, pero GLM-4.5 también me ha encontrado bugs que Claude 4 Sonnet o 4.1 Opus no detectaron.
Si hablamos solo de debugging, Claude gana por un margen pequeño con algo más de frecuencia, pero la diferencia no es grande.
Comparados con GPT-5, tanto Claude como GLM son más consistentes.
GPT-5 a veces produce resultados realmente impresionantes, pero cuando se desvía, cuesta mucho regresarlo al camino correcto y eso resulta frustrante.
Referencia de Octofriend: https://github.com/synthetic-lab/octofriend
Vi este comentario y probé GLM-4.5 en Kilocode.
Hoy estuve todo el día intentando atrapar un bug complicado en código de compilador con Gemini CLI, pero no lo lograba.
En cambio, GLM-4.5 señaló de inmediato el problema central.
Gemini CLI solo sospechaba de funciones equivocadas y repetía correcciones torpes, pero al final era una parte completamente irrelevante.
Definitivamente destaca la capacidad de GLM-4.5 para enfocarse en el problema.
Yo también he tenido buenas experiencias con GLM-4.5 en proyectos pequeños o solicitudes cortas.
Lamentablemente, siento que su rendimiento cae a medida que el contexto se alarga, así que por ahora lo uso como respaldo de Sonnet 4.
Estoy usando el modo architect en aider.
Uso la combinación Deepseek R1 (encargado del diseño de alto nivel) + Qwen3 480B (encargado del código de bajo nivel, o usando la API de qwen code).
Esta configuración funciona realmente bien.
Está al nivel de resolver por sí sola el 99.99% de los problemas.
Como la separación de roles todavía no es perfecta en aider, quiero crear una herramienta que mejore yo mismo ese flujo de trabajo.
Coincido con el primer punto.
A mí también me funciona mejor Claude cuanto más contexto hay, mientras que GLM-4.5 da resultados peores en esas situaciones.
En la serie GLM-4.5, al contar la cantidad de parámetros totales/activos, excluyen las capas de embedding y de salida, e incluyen solo las capas MTP.
Coincide con lo que calculé yo (355B A32B).
La serie GPT OSS sí incluye embedding/salida en los parámetros totales, y en los activos incluye solo la salida.
La serie Qwen3 incluye tanto embedding como salida tanto en el total como en los activos.
Como cada modelo calcula los parámetros de forma distinta, me pregunto por qué no existe un estándar y qué método de cálculo sería más razonable.
En el caso de los parámetros activos, los parámetros de unembedding se usan todos en cada generación de token, pero en embedding solo se usa una columna, así que hay que calcularlo reflejando esas características para entender bien la relación con el ancho de banda y la latencia.
Creo que dentro de unos años será posible programar con un modelo abierto local al nivel de Sonnet 4 en una workstation de unos 2000 dólares.
Los modelos actuales basados en la nube también son útiles, pero como son herramientas clave para la experiencia del desarrollador, me gustaría poder ejecutarlos localmente.
Yo diría que no en dos años, sino para finales de este mismo año.
Desde la perspectiva del open source, este tipo de modelos es indispensable.
De lo contrario, el propio desarrollo open source podría volverse insostenible.
De hecho, espero aún más que en 2 años se pueda poner un rendimiento superior a Sonnet 4 en una PC de 2000 dólares.
Siento que este modelo es el primer modelo abierto que realmente puede compararse casi de igual a igual con los frontier models comerciales existentes.
Solo por la eficiencia en parámetros ya se nota que hubo una innovación real en el método de entrenamiento.
También me interesa ver resultados de validación de rendimiento independientes en el LLM Leaderboard de Aider.
Para quienes, como yo, quieren leer primero el resumen del paper, dejo el enlace https://www.arxiv.org/abs/2508.06471
Que además salga bajo licencia Apache hace que el lanzamiento sea todavía más genial.
Me alegra mucho ver cómo los modelos open source siguen empujando constantemente sus límites.
Hay tantísimas observaciones en este paper que cada una podría dar para un paper aparte.
En especial, la experiencia sobre el proceso de entrenamiento y la recolección/síntesis de datos es riquísima.
¿Alguien sabe si estos autores ya habían publicado antes papers igual de buenos?
Los indicadores de las gráficas del paper me confunden.
En la primera figura, el puntaje de sonnet 4 en swebench aparece como alrededor de 53, pero después sale cerca de 70.
El valor real parece estar más cerca de 70 referencia
Me pregunto por qué Qwen3 no aparece en los benchmarks de código, pero sí está incluido en los demás benchmarks.
Qwen3-Coder sí está incluido en la Sección 4.3.2.
Qwen todavía no es bueno entendiendo bases de código grandes.