GLM-5.2 se convierte en el modelo de pesos abiertos líder en Artificial Analysis

(artificialanalysis.ai)

1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp

GLM-5.2 de Z ai obtuvo 51 puntos en el Artificial Analysis Intelligence Index v4.1, colocándose como el modelo de pesos abiertos líder, y también se ubica en la frontera de Pareto en rendimiento por costo
El tamaño del modelo es el mismo que GLM-5.1, con 744B de parámetros totales / 40B de parámetros activos, pero su puntaje es 11 puntos más alto, superando a MiniMax-M3, DeepSeek V4 Pro(max) y Kimi K2.6
La mejora se observó en la mayoría de las evaluaciones, con avances especialmente notables en razonamiento científico, donde destacaron las subidas en CritPt y HLE
En GDPval-AA v2 logró 1524 puntos, por encima de MiniMax-M3 y DeepSeek V4 Pro(max), y se ubicó en un nivel similar al de GPT-5.5(xhigh reasoning)
Usa 43k tokens de salida por tarea, por lo que su eficiencia de tokens es relativamente baja, pero entre los modelos del mismo nivel de inteligencia está entre los de menor costo por tarea

Liderazgo entre modelos de pesos abiertos en Intelligence Index v4.1

GLM-5.2 obtuvo 51 puntos en el Artificial Analysis Intelligence Index v4.1 y se colocó en el puesto número 1 entre los modelos de pesos abiertos
Las puntuaciones de los principales modelos de pesos abiertos son las siguientes
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
GLM-5.2 tiene la misma escala que GLM-5.1, con 744B de parámetros totales / 40B de parámetros activos, pero su puntuación en Intelligence Index v4.1 es 11 puntos superior

Mejora de rendimiento por evaluación

GLM-5.2 mejoró su puntuación frente a GLM-5.1 en la mayoría de las evaluaciones
La mejora fue especialmente grande en las evaluaciones relacionadas con razonamiento científico
- CritPt: +16 puntos, 21%
- HLE: +12 puntos, 40%
- GPQA Diamond: +3 puntos, 89%
También hubo mejoras consistentes en otras evaluaciones
- AA-LCR: +9 puntos, 71%
- tau3 banking: +15 puntos, 27%
- SciCode: +7 puntos, 50%
- TerminalBench v2.1: +16 puntos, 78%

GDPval-AA v2 y rendimiento como agente

GLM-5.2 registró 1524 puntos en GDPval-AA v2, un indicador de desempeño de agentes en el mundo real
Es la puntuación más alta en la comparación entre modelos de pesos abiertos
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
Este resultado es, en la práctica, de un nivel muy similar a los 1514 puntos de GPT-5.5(xhigh reasoning)
GDPval-AA v2 cambió el método de evaluación frente al GDPval-AA anterior
- La línea base Elo se fijó en desempeño humano 1000
- Se introdujo un panel rotativo de judges de frontier models
- El límite de turnos se elevó de 100 a 250 para manejar trayectorias de agente más largas

Costo, precio y uso de tokens

GLM-5.2 está en la frontera de Pareto del gráfico Intelligence vs Cost per Task y se ubica entre los modelos de menor costo por tarea dentro de su mismo nivel de inteligencia
El costo por tarea es más alto que el de GLM-5.1, pero considerando su mayor puntuación de Intelligence, su posición costo-rendimiento es favorable
- GLM-5.2: aprox. $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
El precio de la API first-party está al mismo nivel que GLM-5.1
- $1.4 por cada 1M tokens de entrada
- $4.4 por cada 1M tokens de salida
- $0.26 por cada 1M tokens de cache hit
Usa 43k tokens de salida por tarea en Intelligence Index, de los cuales 37k son tokens de reasoning
El uso de tokens de salida es más alto que el de los principales modelos de pesos abiertos
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
Entre los modelos de pesos abiertos del mismo nivel de inteligencia, su eficiencia de tokens es relativamente baja, y no entra en el cuadrante más atractivo del gráfico Intelligence vs Output Tokens

Detalles del modelo y accesibilidad

La licencia de GLM-5.2 es MIT
La ventana de contexto es de 1M tokens, un aumento frente a los 200K de GLM-5.1
Se puede usar en la API first-party de Z ai y con varios proveedores third-party
- DeepInfra
- Novita
- Nebius
- Parasail
- Siliconflow
- GMI Cloud
- Baseten
  - Fireworks
  - GLM-5.2 obtuvo 4 puntos en el AA-Omniscience Index, por encima de los 2 puntos de GLM-5.1
  - La precisión fue de 25.1%, superior al 24.2% de GLM-5.1
  - La tasa de alucinación fue de 28.1%, por debajo del 29.4% de GLM-5.1
  - La tasa de intento fue de 47%, igual que antes
  - La comparación del modelo puede consultarse en la página de GLM-5.2 de Artificial Analysis

1 comentarios

GN⁺ 4 시간 전

Comentarios en Hacker News

Es un salto de nivel bastante bueno y parece que ya está cerca de la frontera, pero ahora me gustaría que se enfocaran más en la eficiencia de razonamiento
Uso una prueba en la que le pido escribir en Nim una librería sencilla para evaluar expresiones matemáticas para evaluar LLM, y GLM 5.2 xhigh estuvo razonando más de 15 minutos y gastó unos 45k tokens antes de escribir el primer archivo
Según https://artificialanalysis.ai/#output-tokens, GPT 5.5 xhigh promedia 16k tokens totales, high 10k, Fable 5 33k, Opus 4.8 41k y GLM 5.2 42k, así que la eficiencia de razonamiento de GPT 5.5 es abrumadoramente superior
Si se traduce a costo real por solicitud, GLM 5.2 será más barato que GPT 5.5/Opus 4.8, pero para mucha gente la velocidad también importa
- GLM 5.2 Max parece tener la misma forma de pensar que Opus 4.8 Max, y la cadena de razonamiento y el uso de tokens de salida también son muy parecidos
  Si quieres un uso de tokens razonable, hay que correr GLM 5.2 en High, y en la mayoría de las tareas bajar de Max a High reduce poco la calidad pero baja el uso de tokens entre 2 y 2.5 veces
  Al final, GLM 5.2 es como el hermano menor de un Opus 4.8 mucho más barato, y hasta salen bromas de que cuesta creer que el modelo Opus no haya sido usado en absoluto para entrenarlo
- Más que “se acercó a la frontera”, yo diría que ya la superó
  Personalmente, la combinación GLM + OpenCode que uso me parece mucho mejor que Claude Code + Opus, que es lo que tengo que usar en el trabajo; comete muchos menos errores de principiante estilo StackOverflow y sigue mejor las instrucciones
  La experiencia del usuario con el harness también es muy superior porque no ignora configuraciones, no las cambia arbitrariamente y no reporta mal, y parece que el foso de Anthropic se está desvaneciendo rápido
- En Opus pasa algo parecido: se queda pensando demasiado tiempo y repite “espera, ¿y si...?” una y otra vez
  Al final termino interrumpiéndolo y diciéndole “primero escribe el código y resuélvelo sobre la marcha”, y da la impresión de que el bloqueo del escritor también existe en los LLM
- Me recuerda a https://en.wikipedia.org/wiki/Portia_(spider)
- Ojalá el trabajo reciente que hizo Moonshot con Kimi K2.7 Code se extienda a otros laboratorios de modelos abiertos
  Según Artificial Analysis, K2.7 Code tiene una inteligencia similar a K2.6, pero usa solo la mitad de tokens de salida para llegar al mismo nivel
Hice un script que clasifica modelos según el codingindex de Artificial Analysis y lo uso todos los días
Toma el JSON de la página principal de la tabla y parsea solo los campos de codificación que me interesan; antes también había una lista de correo, pero como no había mucho interés la desactivé
En algunos resultados actuales están arriba Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max y otros, y se puede ejecutar con $ curl day50.dev/art-analysis.sh | bash
El repositorio está en https://github.com/day50-dev/aa-eval-email y, por ahora, los modelos abiertos parecen estar entre 4 y 7 meses por detrás según cómo se midan; si esta tendencia sigue, antes de Año Nuevo podría aparecer un modelo de pesos abiertos capaz de hacer tareas al nivel de Claude Fable 5
- El índice de código de Artificial Analysis está compuesto solo por dos benchmarks, Terminal-Bench Hard y SciCode, así que dudo que sea un buen índice de programación
  Pone a Gemma 4 31B por encima de DeepSeek V4 Flash, pero habiendo usado ambos en distintas tareas de programación, yo elegiría DeepSeek cada vez
- Es un proyecto genial, pero pedir que simplemente ejecutes Bash de una fuente desconocida me parece una práctica bastante mala
No entiendo por qué más gente no está hablando de esto
Básicamente está ofreciendo calidad de Opus 4.7 a un precio ridículamente bajo; incluso hay lugares que ofrecen tokens ilimitados por 50 dólares al mes, y otros cobran tarifas de API 3 veces más bajas que la API oficial de ZAI
La API oficial de ZAI ya es unas 10 veces más barata que Opus, así que esto es un golpe fuerte para Anthropic/OpenAI/Google y una gran victoria para el resto del mundo; en modelos abiertos, el precio y la velocidad de la API oficial no lo son todo
- He probado varias veces modelos abiertos chinos y, aunque están bien, no alcanzaban el nivel de benchmark que afirmaban
  Puede que GLM 5.2 sí esté cerca de Opus 4.7, pero si cada vez que lo verifico sigue siendo solo optimización para benchmarks y no está al nivel de GPT u Opus, entonces uno termina tomándolo como otro caso de “ahí viene el lobo”
- Hay que tener cuidado con los proveedores no oficiales
  Muchas veces configuran mal el modelo o lo cuantizan en secreto, y durante un tiempo hubo una diferencia de 20~40% entre Kimi en la API oficial y la mayoría de proveedores de terceros
- Si ves OpenRouter, algunos de los productos más baratos son modelos cuantizados, y no está claro cuánto reduce la inteligencia la cuantización
  Me daba curiosidad dónde estaba esa API 3 veces más barata, y confirmé que las tarifas de 8 bits de Croft son $0.50/$0.08/$2.20
  https://openrouter.ai/z-ai/glm-5.2
  https://ai.nahcrof.com/pricing
- Hay demasiadas opciones, y para una persona simplemente mantenerse al día ya tiene un costo computacional alto
  Incluso averiguar cómo correr estos modelos es difícil y no hay instalador; si no eres parte del 1% realmente interesado, buscas una guía y luego descubres que ya está desactualizada
  Comparado con “instalar Claude Code y pagar 100 dólares al mes”, la curva de aprendizaje es demasiado empinada, y ahorrarte 50 dólares al mes pesa poco frente a todo ese esfuerzo
- En nuestra organización todos están demasiado fijados con Claude, como si fuera el único LLM que existe
  Es puramente porque está demasiado orientado a la gente no técnica dentro del entorno enterprise
En el benchmark de codificación de Artificial Analysis, GLM 5.1 high está bastante cerca de GPT 5.5 xhigh en costo de ejecución, y GPT 5.5 medium es mucho más barato
Comparado con GPT 5.5 medium, GLM 5.1 xhigh cuesta el doble y tiene la mitad del nivel de inteligencia, así que incluso sin GLM 5.2 todavía hay una brecha grande por cerrar
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE también coincide bastante bien con mi experiencia personal, así que me hace dudar de qué tan justificado está todo el ruido en internet sobre los modelos abiertos
Si quieres un modelo cercano a la frontera, por ahora parece más honesto hablar de Opus, Fable y GPT5.5
- En la ejecución propia de Z.ai, GLM 5.2 obtuvo 46.2 puntos en DeepSWE, y su posición queda entre Opus 4.7 xhigh y Opus 4.8 medium
  https://z.ai/blog/glm-5.2
- Si usas un modelo abierto, puedes obtener una suscripción con privacidad por el mismo costo que Codex
  Las suscripciones de OpenAI, Google y Anthropic no tienen esa opción de privacidad, y al ver el enlace también resulta interesante que GPT 5.5 esté en 7.º lugar en Cursor CLI pero suba al 3.º en Codex CLI
  Como no probaron modelos abiertos en Codex, es difícil afirmar que sea un benchmark puro del modelo, y puede que los modelos abiertos sean débiles en el harness de agentes SWE, pero no parece la explicación más simple
- DeepSWE se siente como un benchmark más “correcto” que el índice de Artificial Analysis u otros benchmarks de codificación
  Bajo esa métrica, GPT-5.5 sigue siendo el rey en eficiencia de tokens, velocidad e inteligencia por dólar
  https://deepswe.datacurve.ai/
  Fable 5 también es bueno, pero todavía no he visto GPT-5.6
- Ayer probé GLM 5.2 en OpenRouter y en general estuvo bien, pero en una tarea relativamente lenta de 30 minutos el costo de tokens llegó a 5 dólares
  Fue fácilmente 4 veces más caro que DeepSeek V4, pero no sentí que el resultado fuera así de superior, y cuando después lo revisé con GPT 5.5 in Codex también había bastantes partes desordenadas
  En relación costo-beneficio, MiniMax M3 me pareció mejor
Me sorprendió que GLM 5.1/5.2 no sea un modelo de visión
Hoy en día eso es bastante raro, y los modelos de OpenAI/Anthropic/Gemini todos aceptan imágenes, mientras que las principales familias de pesos abiertos como Gemma 4, Qwen 3.6 y Kimi 2.x también admiten entrada de imágenes
GLM es un modelo con puntajes altos en tareas como diseño web, así que si aceptara imágenes sería útil para recibir capturas de pantalla y generar HTML+CSS; ahí claramente tiene un hueco
- Puedes configurar subagentes en el harness de codificación y, para ese tipo de tareas, abrir una nueva sub-sesión con cualquier modelo de visión y luego volver a pasar el resultado al modelo principal
  No hace falta necesariamente “un solo modelo que haga todo”
- Estoy usando Google AI Studio como puente de visión gratuito
  Gemma 31B hace bastante bien las tareas de visión, y 1500 solicitudes al día es en la práctica casi ilimitado
- No me parece un hueco tan grande
  Habrá casos de uso como trabajo UX/UI, pero fuera de eso no hace mucha falta, y ni siquiera los modelos de frontera pueden replicar imágenes reales; en mi experiencia personal solo logran aproximaciones
- La reacción fue la misma con DeepSeek V4
  Creo que habría sido más útil si hubiera sido un modelo de visión
He usado bastante este modelo en las últimas 24 horas y confirmé que es bastante competente
Eso sí, es un poco verboso, y en su registro de razonamiento vi casos en los que reconsidera 3 o 4 veces antes de decidir una dirección; además, su capacidad para manejar requisitos complejos y abstractos no llega al nivel de GPT5.5
Aun así, se lo recomendaría a la mayoría en una combinación de suscripción a Z.AI + suscripción mensual de 20 dólares a OpenAI, y un flujo donde GLM escribe y GPT revisa/depura se siente casi ilimitado y apenas un poco peor que usar solo GPT con el plan de 200 dólares al mes
- Hoy me enteré de que la intensidad de razonamiento predeterminada está configurada en max
  Probablemente esa sea la razón de lo verboso
- Lo que más me importa ahora es qué tan bien escribe un modelo
  Si sabes programar, creo que ya llegamos a una etapa en la que puedes darle al modelo suficiente información para que haga el trabajo que necesitas
  En cambio, la escritura tiene demasiados matices y sigue siendo mucho más difícil, aunque realmente está mejorando poco a poco
- Mi flujo de trabajo también es así
  Una vez al día copio el código en Claude Sonnet gratis para que lo vuelva realmente legible
- Después de probar Fable 5, incluso Opus 4.8 ya no se siente suficiente
  Opus 4.8 sí es un agente de codificación más fuerte que logra resolver casos donde DeepSeek 4.0 o Kimi 2.7 flaquean y fallan, pero sus adornos retóricos en tono conversacional me irritan cada vez más, y a veces da la impresión de hablar con ambigüedad a propósito o de guardarse la verdad hasta que uno le insiste, lo que me hace replantear la suscripción
GLM 5.2 es el primer modelo que hemos probado que es claramente del nivel de Opus 4.6 o mejor
Aun así, en nuestro lado vemos a GLM 5.2 y a la mayoría de los modelos chinos un poco por debajo de lo que muestran otros benchmarks con metodologías de prueba más débiles
Los datos están en https://gertlabs.com/rankings
No sé bien cómo se corre este tipo de modelos, pero me da curiosidad qué tan cerca estamos del momento en que las empresas medianas y grandes empiecen a comprar hardware para mantener el modelo en local
Es caro y no es tan capaz como los modelos de punta, pero las ventajas en privacidad y control son bastante grandes
- Varias empresas en Europa ya venían haciendo esto desde hace tiempo con modelos de 70B, y están actualizando hardware para correr los nuevos modelos de 700B~1T
  Esto se aceleró de verdad más o menos desde Kimi K2, pero comprar y alojar ese hardware toma tiempo
  No todas las empresas quieren enviar sus secretos comerciales a OpenAI o Anthropic, y en algunos casos ni siquiera pueden hacerlo legalmente
- No es una situación nueva
  En la época en que salían buenos modelos de visión como AlexNet, especialmente en OCR, las empresas también tenían que elegir entre la nube y el autoalojamiento con GPU
  Al final el problema es el patrón de uso: la demanda se concentra en ciertas horas laborales y el resto del tiempo las GPU quedan ociosas
  En trabajos sensibles a la latencia, es un trade-off de hace décadas; no es un problema exclusivo de los LLM
- Es un modelo de alrededor de 750B, así que requiere una cantidad enorme de VRAM
  Parece algo para una empresa mediana bastante decidida
- Hasta ahora, un caso de uso importante que sí necesita privacidad total parece ser el trabajo legal
  Para buscar texto masivo en procesos de descubrimiento de evidencia no hace falta un modelo de primer nivel, pero sí se necesita confidencialidad total
  En r/localllama hay bastantes abogados presumiendo builds con múltiples GPU, y da la casualidad de que ellos sí tienen el presupuesto necesario
- A menos que haya una preocupación real de seguridad nacional, parece mejor negociar con algunos proveedores existentes un contrato comercial con protección de privacidad
Dicen que “GLM-5.2 está en la frontera de Pareto de costo por tarea frente a inteligencia, y tiene el costo por tarea más bajo entre los modelos del mismo nivel de inteligencia”, pero también ponen que GLM-5.2 cuesta aproximadamente $0.46 por tarea, mientras que GLM-5.1 cuesta $0.25, Kimi K2.6 $0.31, MiniMax-M3 $0.18 y DeepSeek V4 Pro max $0.05; siento que me estoy perdiendo de algo
- Creo que eligieron mal los modelos de comparación
  En vez de tomar otros modelos cercanos a 5.2 en la métrica de inteligencia, parece que escogieron varios modelos públicos de un nivel más bajo
- Frontera de Pareto no significa que sea el más barato
- Algunos modelos están fuertemente subsidiados
  El costo de inferencia se mide mejor con el total de parámetros y los parámetros activos
Viendo Mythos, agregué GLM 5.2 al benchmark basado en bugs; es mejor que GLM 5.1, pero sigue por detrás de varios modelos, y la comparación más directa sería con Qwen 3.7 Max
Modelos públicos más pequeños que se pueden autoalojar, como Gemma 4 y Qwen 3.6, también encontraron la misma cantidad de bugs, 3 de 9, y GLM 5.2 acertó la ubicación de un bug pero entendió mal el bug en sí, así que solo obtuvo puntaje parcial
Kimi K2.7-code, que agregué en la misma ejecución, no rindió consistentemente bien como 2.6, y en este benchmark específico hay modelos mejores y más baratos
https://swelljoe.com/post/will-it-mythos/
Este benchmark pequeño no prueba gran cosa, pero sí sirve para medir rápido si un modelo puede razonar sobre problemas bastante complejos dentro del código

GLM-5.2 se convierte en el modelo de pesos abiertos líder en Artificial Analysis

Liderazgo entre modelos de pesos abiertos en Intelligence Index v4.1

Mejora de rendimiento por evaluación

GDPval-AA v2 y rendimiento como agente

Costo, precio y uso de tokens

Detalles del modelo y accesibilidad

DeepInfra

Novita

Nebius

Parasail

Siliconflow

GMI Cloud

Baseten

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News