GLM-5.2 se convierte en el modelo de pesos abiertos líder en Artificial Analysis
(artificialanalysis.ai)- GLM-5.2 de Z ai obtuvo 51 puntos en el Artificial Analysis Intelligence Index v4.1, colocándose como el modelo de pesos abiertos líder, y también se ubica en la frontera de Pareto en rendimiento por costo
- El tamaño del modelo es el mismo que GLM-5.1, con 744B de parámetros totales / 40B de parámetros activos, pero su puntaje es 11 puntos más alto, superando a MiniMax-M3, DeepSeek V4 Pro(max) y Kimi K2.6
- La mejora se observó en la mayoría de las evaluaciones, con avances especialmente notables en razonamiento científico, donde destacaron las subidas en CritPt y HLE
- En GDPval-AA v2 logró 1524 puntos, por encima de MiniMax-M3 y DeepSeek V4 Pro(max), y se ubicó en un nivel similar al de GPT-5.5(xhigh reasoning)
- Usa 43k tokens de salida por tarea, por lo que su eficiencia de tokens es relativamente baja, pero entre los modelos del mismo nivel de inteligencia está entre los de menor costo por tarea
Liderazgo entre modelos de pesos abiertos en Intelligence Index v4.1
- GLM-5.2 obtuvo 51 puntos en el Artificial Analysis Intelligence Index v4.1 y se colocó en el puesto número 1 entre los modelos de pesos abiertos
- Las puntuaciones de los principales modelos de pesos abiertos son las siguientes
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
- GLM-5.2 tiene la misma escala que GLM-5.1, con 744B de parámetros totales / 40B de parámetros activos, pero su puntuación en Intelligence Index v4.1 es 11 puntos superior
Mejora de rendimiento por evaluación
- GLM-5.2 mejoró su puntuación frente a GLM-5.1 en la mayoría de las evaluaciones
- La mejora fue especialmente grande en las evaluaciones relacionadas con razonamiento científico
- CritPt: +16 puntos, 21%
- HLE: +12 puntos, 40%
- GPQA Diamond: +3 puntos, 89%
- También hubo mejoras consistentes en otras evaluaciones
- AA-LCR: +9 puntos, 71%
- tau3 banking: +15 puntos, 27%
- SciCode: +7 puntos, 50%
- TerminalBench v2.1: +16 puntos, 78%
GDPval-AA v2 y rendimiento como agente
- GLM-5.2 registró 1524 puntos en GDPval-AA v2, un indicador de desempeño de agentes en el mundo real
- Es la puntuación más alta en la comparación entre modelos de pesos abiertos
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
- Este resultado es, en la práctica, de un nivel muy similar a los 1514 puntos de GPT-5.5(xhigh reasoning)
- GDPval-AA v2 cambió el método de evaluación frente al GDPval-AA anterior
- La línea base Elo se fijó en desempeño humano 1000
- Se introdujo un panel rotativo de judges de frontier models
- El límite de turnos se elevó de 100 a 250 para manejar trayectorias de agente más largas
Costo, precio y uso de tokens
- GLM-5.2 está en la frontera de Pareto del gráfico Intelligence vs Cost per Task y se ubica entre los modelos de menor costo por tarea dentro de su mismo nivel de inteligencia
- El costo por tarea es más alto que el de GLM-5.1, pero considerando su mayor puntuación de Intelligence, su posición costo-rendimiento es favorable
- GLM-5.2: aprox. $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
- El precio de la API first-party está al mismo nivel que GLM-5.1
- $1.4 por cada 1M tokens de entrada
- $4.4 por cada 1M tokens de salida
- $0.26 por cada 1M tokens de cache hit
- Usa 43k tokens de salida por tarea en Intelligence Index, de los cuales 37k son tokens de reasoning
- El uso de tokens de salida es más alto que el de los principales modelos de pesos abiertos
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
- Entre los modelos de pesos abiertos del mismo nivel de inteligencia, su eficiencia de tokens es relativamente baja, y no entra en el cuadrante más atractivo del gráfico Intelligence vs Output Tokens
Detalles del modelo y accesibilidad
- La licencia de GLM-5.2 es MIT
- La ventana de contexto es de 1M tokens, un aumento frente a los 200K de GLM-5.1
- Se puede usar en la API first-party de Z ai y con varios proveedores third-party
-
DeepInfra
-
Novita
-
Nebius
-
Parasail
-
Siliconflow
-
GMI Cloud
-
Baseten
- Fireworks
- GLM-5.2 obtuvo 4 puntos en el AA-Omniscience Index, por encima de los 2 puntos de GLM-5.1
- La precisión fue de 25.1%, superior al 24.2% de GLM-5.1
- La tasa de alucinación fue de 28.1%, por debajo del 29.4% de GLM-5.1
- La tasa de intento fue de 47%, igual que antes
- La comparación del modelo puede consultarse en la página de GLM-5.2 de Artificial Analysis
-
1 comentarios
Comentarios en Hacker News
Es un salto de nivel bastante bueno y parece que ya está cerca de la frontera, pero ahora me gustaría que se enfocaran más en la eficiencia de razonamiento
Uso una prueba en la que le pido escribir en Nim una librería sencilla para evaluar expresiones matemáticas para evaluar LLM, y GLM 5.2 xhigh estuvo razonando más de 15 minutos y gastó unos 45k tokens antes de escribir el primer archivo
Según https://artificialanalysis.ai/#output-tokens, GPT 5.5 xhigh promedia 16k tokens totales, high 10k, Fable 5 33k, Opus 4.8 41k y GLM 5.2 42k, así que la eficiencia de razonamiento de GPT 5.5 es abrumadoramente superior
Si se traduce a costo real por solicitud, GLM 5.2 será más barato que GPT 5.5/Opus 4.8, pero para mucha gente la velocidad también importa
Si quieres un uso de tokens razonable, hay que correr GLM 5.2 en High, y en la mayoría de las tareas bajar de Max a High reduce poco la calidad pero baja el uso de tokens entre 2 y 2.5 veces
Al final, GLM 5.2 es como el hermano menor de un Opus 4.8 mucho más barato, y hasta salen bromas de que cuesta creer que el modelo Opus no haya sido usado en absoluto para entrenarlo
Personalmente, la combinación GLM + OpenCode que uso me parece mucho mejor que Claude Code + Opus, que es lo que tengo que usar en el trabajo; comete muchos menos errores de principiante estilo StackOverflow y sigue mejor las instrucciones
La experiencia del usuario con el harness también es muy superior porque no ignora configuraciones, no las cambia arbitrariamente y no reporta mal, y parece que el foso de Anthropic se está desvaneciendo rápido
Al final termino interrumpiéndolo y diciéndole “primero escribe el código y resuélvelo sobre la marcha”, y da la impresión de que el bloqueo del escritor también existe en los LLM
Según Artificial Analysis, K2.7 Code tiene una inteligencia similar a K2.6, pero usa solo la mitad de tokens de salida para llegar al mismo nivel
Hice un script que clasifica modelos según el codingindex de Artificial Analysis y lo uso todos los días
Toma el JSON de la página principal de la tabla y parsea solo los campos de codificación que me interesan; antes también había una lista de correo, pero como no había mucho interés la desactivé
En algunos resultados actuales están arriba Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max y otros, y se puede ejecutar con
$ curl day50.dev/art-analysis.sh | bashEl repositorio está en https://github.com/day50-dev/aa-eval-email y, por ahora, los modelos abiertos parecen estar entre 4 y 7 meses por detrás según cómo se midan; si esta tendencia sigue, antes de Año Nuevo podría aparecer un modelo de pesos abiertos capaz de hacer tareas al nivel de Claude Fable 5
Pone a Gemma 4 31B por encima de DeepSeek V4 Flash, pero habiendo usado ambos en distintas tareas de programación, yo elegiría DeepSeek cada vez
No entiendo por qué más gente no está hablando de esto
Básicamente está ofreciendo calidad de Opus 4.7 a un precio ridículamente bajo; incluso hay lugares que ofrecen tokens ilimitados por 50 dólares al mes, y otros cobran tarifas de API 3 veces más bajas que la API oficial de ZAI
La API oficial de ZAI ya es unas 10 veces más barata que Opus, así que esto es un golpe fuerte para Anthropic/OpenAI/Google y una gran victoria para el resto del mundo; en modelos abiertos, el precio y la velocidad de la API oficial no lo son todo
Puede que GLM 5.2 sí esté cerca de Opus 4.7, pero si cada vez que lo verifico sigue siendo solo optimización para benchmarks y no está al nivel de GPT u Opus, entonces uno termina tomándolo como otro caso de “ahí viene el lobo”
Muchas veces configuran mal el modelo o lo cuantizan en secreto, y durante un tiempo hubo una diferencia de 20~40% entre Kimi en la API oficial y la mayoría de proveedores de terceros
Me daba curiosidad dónde estaba esa API 3 veces más barata, y confirmé que las tarifas de 8 bits de Croft son $0.50/$0.08/$2.20
https://openrouter.ai/z-ai/glm-5.2
https://ai.nahcrof.com/pricing
Incluso averiguar cómo correr estos modelos es difícil y no hay instalador; si no eres parte del 1% realmente interesado, buscas una guía y luego descubres que ya está desactualizada
Comparado con “instalar Claude Code y pagar 100 dólares al mes”, la curva de aprendizaje es demasiado empinada, y ahorrarte 50 dólares al mes pesa poco frente a todo ese esfuerzo
Es puramente porque está demasiado orientado a la gente no técnica dentro del entorno enterprise
En el benchmark de codificación de Artificial Analysis, GLM 5.1 high está bastante cerca de GPT 5.5 xhigh en costo de ejecución, y GPT 5.5 medium es mucho más barato
Comparado con GPT 5.5 medium, GLM 5.1 xhigh cuesta el doble y tiene la mitad del nivel de inteligencia, así que incluso sin GLM 5.2 todavía hay una brecha grande por cerrar
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE también coincide bastante bien con mi experiencia personal, así que me hace dudar de qué tan justificado está todo el ruido en internet sobre los modelos abiertos
Si quieres un modelo cercano a la frontera, por ahora parece más honesto hablar de Opus, Fable y GPT5.5
https://z.ai/blog/glm-5.2
Las suscripciones de OpenAI, Google y Anthropic no tienen esa opción de privacidad, y al ver el enlace también resulta interesante que GPT 5.5 esté en 7.º lugar en Cursor CLI pero suba al 3.º en Codex CLI
Como no probaron modelos abiertos en Codex, es difícil afirmar que sea un benchmark puro del modelo, y puede que los modelos abiertos sean débiles en el harness de agentes SWE, pero no parece la explicación más simple
Bajo esa métrica, GPT-5.5 sigue siendo el rey en eficiencia de tokens, velocidad e inteligencia por dólar
https://deepswe.datacurve.ai/
Fable 5 también es bueno, pero todavía no he visto GPT-5.6
Fue fácilmente 4 veces más caro que DeepSeek V4, pero no sentí que el resultado fuera así de superior, y cuando después lo revisé con GPT 5.5 in Codex también había bastantes partes desordenadas
En relación costo-beneficio, MiniMax M3 me pareció mejor
Me sorprendió que GLM 5.1/5.2 no sea un modelo de visión
Hoy en día eso es bastante raro, y los modelos de OpenAI/Anthropic/Gemini todos aceptan imágenes, mientras que las principales familias de pesos abiertos como Gemma 4, Qwen 3.6 y Kimi 2.x también admiten entrada de imágenes
GLM es un modelo con puntajes altos en tareas como diseño web, así que si aceptara imágenes sería útil para recibir capturas de pantalla y generar HTML+CSS; ahí claramente tiene un hueco
No hace falta necesariamente “un solo modelo que haga todo”
Gemma 31B hace bastante bien las tareas de visión, y 1500 solicitudes al día es en la práctica casi ilimitado
Habrá casos de uso como trabajo UX/UI, pero fuera de eso no hace mucha falta, y ni siquiera los modelos de frontera pueden replicar imágenes reales; en mi experiencia personal solo logran aproximaciones
Creo que habría sido más útil si hubiera sido un modelo de visión
He usado bastante este modelo en las últimas 24 horas y confirmé que es bastante competente
Eso sí, es un poco verboso, y en su registro de razonamiento vi casos en los que reconsidera 3 o 4 veces antes de decidir una dirección; además, su capacidad para manejar requisitos complejos y abstractos no llega al nivel de GPT5.5
Aun así, se lo recomendaría a la mayoría en una combinación de suscripción a Z.AI + suscripción mensual de 20 dólares a OpenAI, y un flujo donde GLM escribe y GPT revisa/depura se siente casi ilimitado y apenas un poco peor que usar solo GPT con el plan de 200 dólares al mes
Probablemente esa sea la razón de lo verboso
Si sabes programar, creo que ya llegamos a una etapa en la que puedes darle al modelo suficiente información para que haga el trabajo que necesitas
En cambio, la escritura tiene demasiados matices y sigue siendo mucho más difícil, aunque realmente está mejorando poco a poco
Una vez al día copio el código en Claude Sonnet gratis para que lo vuelva realmente legible
Opus 4.8 sí es un agente de codificación más fuerte que logra resolver casos donde DeepSeek 4.0 o Kimi 2.7 flaquean y fallan, pero sus adornos retóricos en tono conversacional me irritan cada vez más, y a veces da la impresión de hablar con ambigüedad a propósito o de guardarse la verdad hasta que uno le insiste, lo que me hace replantear la suscripción
GLM 5.2 es el primer modelo que hemos probado que es claramente del nivel de Opus 4.6 o mejor
Aun así, en nuestro lado vemos a GLM 5.2 y a la mayoría de los modelos chinos un poco por debajo de lo que muestran otros benchmarks con metodologías de prueba más débiles
Los datos están en https://gertlabs.com/rankings
No sé bien cómo se corre este tipo de modelos, pero me da curiosidad qué tan cerca estamos del momento en que las empresas medianas y grandes empiecen a comprar hardware para mantener el modelo en local
Es caro y no es tan capaz como los modelos de punta, pero las ventajas en privacidad y control son bastante grandes
Esto se aceleró de verdad más o menos desde Kimi K2, pero comprar y alojar ese hardware toma tiempo
No todas las empresas quieren enviar sus secretos comerciales a OpenAI o Anthropic, y en algunos casos ni siquiera pueden hacerlo legalmente
En la época en que salían buenos modelos de visión como AlexNet, especialmente en OCR, las empresas también tenían que elegir entre la nube y el autoalojamiento con GPU
Al final el problema es el patrón de uso: la demanda se concentra en ciertas horas laborales y el resto del tiempo las GPU quedan ociosas
En trabajos sensibles a la latencia, es un trade-off de hace décadas; no es un problema exclusivo de los LLM
Parece algo para una empresa mediana bastante decidida
Para buscar texto masivo en procesos de descubrimiento de evidencia no hace falta un modelo de primer nivel, pero sí se necesita confidencialidad total
En r/localllama hay bastantes abogados presumiendo builds con múltiples GPU, y da la casualidad de que ellos sí tienen el presupuesto necesario
Dicen que “GLM-5.2 está en la frontera de Pareto de costo por tarea frente a inteligencia, y tiene el costo por tarea más bajo entre los modelos del mismo nivel de inteligencia”, pero también ponen que GLM-5.2 cuesta aproximadamente $0.46 por tarea, mientras que GLM-5.1 cuesta $0.25, Kimi K2.6 $0.31, MiniMax-M3 $0.18 y DeepSeek V4 Pro max $0.05; siento que me estoy perdiendo de algo
En vez de tomar otros modelos cercanos a 5.2 en la métrica de inteligencia, parece que escogieron varios modelos públicos de un nivel más bajo
El costo de inferencia se mide mejor con el total de parámetros y los parámetros activos
Viendo Mythos, agregué GLM 5.2 al benchmark basado en bugs; es mejor que GLM 5.1, pero sigue por detrás de varios modelos, y la comparación más directa sería con Qwen 3.7 Max
Modelos públicos más pequeños que se pueden autoalojar, como Gemma 4 y Qwen 3.6, también encontraron la misma cantidad de bugs, 3 de 9, y GLM 5.2 acertó la ubicación de un bug pero entendió mal el bug en sí, así que solo obtuvo puntaje parcial
Kimi K2.7-code, que agregué en la misma ejecución, no rindió consistentemente bien como 2.6, y en este benchmark específico hay modelos mejores y más baratos
https://swelljoe.com/post/will-it-mythos/
Este benchmark pequeño no prueba gran cosa, pero sí sirve para medir rápido si un modelo puede razonar sobre problemas bastante complejos dentro del código