- El modelo insignia de nueva generación GLM-5.1 de ingeniería agéntica está diseñado con un fuerte refuerzo en capacidades de codificación y resolución de problemas, con optimización de largo plazo y mejora continua como eje central
- Registra rendimiento de primer nivel en benchmarks clave como SWE-Bench Pro, NL2Repo y Terminal-Bench 2.0, y mantiene persistencia productiva incluso en ejecuciones iterativas prolongadas
- En VectorDBBench, KernelBench y escenarios de construcción de aplicaciones web, continúa mejorando su desempeño a lo largo de cientos o miles de iteraciones, eliminando cuellos de botella mediante análisis de sus propios logs y ajustes de estrategia
- El modelo funciona de forma eficiente incluso en tareas complejas de ingeniería de software mediante autoevaluación y cambios estructurales, y la calidad de los resultados mejora de forma constante en ejecuciones largas
- Se publica como open source con licencia MIT, puede usarse en diversas plataformas y frameworks, y se presenta como un nuevo estándar para modelos de IA orientados a la optimización de largo plazo
Resumen de GLM-5.1
- GLM-5.1 es un modelo de nueva generación de ingeniería agéntica (agentic engineering), y es el modelo insignia con un rendimiento de codificación muy superior al de la versión anterior
- Logra el mejor rendimiento en SWE-Bench Pro y también se impone con una amplia ventaja frente a GLM-5 en NL2Repo (generación de repositorios) y Terminal-Bench 2.0 (tareas reales en terminal)
- Está diseñado no solo para el rendimiento en una sola ejecución, sino con énfasis en la capacidad de optimización de largo plazo y la resolución continua de problemas
- Evalúa mejor problemas ambiguos, mantiene la productividad en sesiones largas y, mediante experimentación repetitiva y ajustes de estrategia, sigue mejorando su rendimiento incluso tras cientos de iteraciones
- Su arquitectura hace que los resultados mejoren cuanto más tiempo se ejecuta, y su rasgo central es la capacidad de trabajo de largo horizonte (long-horizon capability)
Tareas complejas de ingeniería de software
- GLM-5.1 alcanza rendimiento de primer nivel en tareas complejas de ingeniería de software
- Mientras que modelos anteriores se estancan rápidamente tras mejoras iniciales, GLM-5.1 mantiene la eficiencia incluso en trabajos agénticos de largo plazo
- El modelo divide los problemas en partes, ejecuta experimentos, analiza resultados para identificar cuellos de botella y ajusta su estrategia mediante razonamiento iterativo
- Esto se demuestra en tres tareas con una estructuración progresivamente menor
- Problema de optimización de búsqueda vectorial (basado en una sola métrica numérica)
- Benchmark de kernels de GPU (medición de mejora de velocidad por problema)
- Construcción de aplicaciones web (mejora basada en juicio propio sin métricas explícitas)
Escenario 1: optimización de base de datos vectorial mediante 600 iteraciones
- VectorDBBench es un reto open source que evalúa la capacidad de codificación del modelo para construir una base de datos de alto rendimiento para búsqueda aproximada de vecinos más cercanos
- El modelo recibe código base en Rust y endpoints de API HTTP, y debe realizar lectura/escritura de archivos, compilación, pruebas y profiling dentro de 50 llamadas a herramientas (tool-call)
- El mejor rendimiento previo era de 3,547 QPS de Claude Opus 4.6 (Recall ≥ 95%)
- GLM-5.1 añadió un bucle externo de optimización y realizó más de 600 iteraciones (más de 6,000 llamadas a herramientas), alcanzando finalmente 21.5k QPS
- Esto representa una mejora de aproximadamente 6 veces frente a una sola sesión de 50 llamadas
- El proceso de mejora del rendimiento muestra un patrón escalonado (staircase), en el que se alternan ajustes graduales y cambios estructurales
- Alrededor de la iteración 90: introducción de IVF cluster probing + compresión de vectores f16 → 6.4k QPS
- Alrededor de la iteración 240: introducción de un pipeline de dos etapas con u8 prescoring + reranking f16 → 13.4k QPS
- Se produjeron un total de 6 cambios estructurales, cada uno resultado de que el modelo analizara sus propios logs para identificar cuellos de botella
- Los puntos en que el Recall cayó por debajo de 95% se concentraron principalmente en momentos de exploración de nuevas estrategias
Escenario 2: optimización de cargas de trabajo de machine learning con más de 1,000 iteraciones
- KernelBench evalúa la capacidad del modelo para convertir una implementación de referencia en PyTorch en un kernel de GPU más rápido con la misma salida
- Consta de tres etapas (Level 1–3), y Level 3 incluye optimización a nivel de modelo completo como MobileNet, VGG, MiniGPT, Mamba
- La configuración base de
torch.compilelogra una mejora de velocidad de 1.15×, ymax-autotunealcanza 1.49× - GLM-5.1 registra una mejora de velocidad de 3.6× en Level 3, y mantiene optimizaciones efectivas durante mucho más tiempo que GLM-5
- GLM-5 se estanca tras un ascenso inicial, mientras que Claude Opus 4.5 dura más pero se desacelera en la fase final
- Claude Opus 4.6 mantiene finalmente el mayor rendimiento con 4.2×, y aún parece haber margen para mejoras adicionales
Escenario 3: construcción de una webapp tipo escritorio Linux durante 8 horas
- La creación de sitios web es una tarea subjetiva sin métricas numéricas explícitas, donde se evalúan el nivel de terminación, la calidad visual y la calidad de la interacción
- Prompt de prueba: “Construye un entorno de escritorio estilo Linux como una aplicación web”
- Se inicia sin código inicial, diseño ni retroalimentación intermedia
- La mayoría de los modelos generan solo una UI básica y terminan, pero GLM-5.1 continúa evolucionando mediante un bucle de revisión y mejora de sus propios resultados
- Se ejecuta iterativamente durante 8 horas, expandiéndose gradualmente desde un layout simple inicial hasta un entorno de escritorio completo
- Se agregan explorador de archivos, terminal, editor de texto, monitor del sistema, calculadora, juegos y más
- Cada función se integra en una UI consistente, y tanto el estilo como la calidad de interacción mejoran progresivamente
- El resultado final es un entorno de escritorio completo y visualmente consistente que se ejecuta dentro del navegador
Significado y retos de la optimización de largo plazo
- En los tres escenarios, la variable clave no es el tiempo de ejecución en sí, sino si el tiempo adicional realmente resulta útil
- GLM-5.1 amplía de forma importante el horizonte productivo (productive horizon) frente a GLM-5
- Sin embargo, en algunas tareas como KernelBench todavía existe margen de mejora
- Retos pendientes
- Escapar de óptimos locales cuando el ajuste gradual alcanza su límite
- Mantener consistencia a lo largo de miles de llamadas a herramientas
- Autoevaluación confiable (self-evaluation) en tareas sin métricas numéricas explícitas
- GLM-5.1 se presenta como un primer paso hacia esta dirección de optimización de largo plazo
Resumen comparativo de benchmarks
- GLM-5.1 supera a GLM-5 en benchmarks clave de codificación como SWE-Bench Pro 58.4, NL2Repo 42.7 y Terminal-Bench 2.0 63.5
- Muestra rendimiento de primer nivel frente a modelos competidores en Reasoning, Coding y Agentic
- Incluso frente a modelos recientes como Claude Opus 4.6, Gemini 3.1 Pro y GPT-5.4, queda cerca o por delante en múltiples apartados
Publicación y forma de uso
- Publicado como open source bajo licencia MIT
- Disponible en api.z.ai y BigModel.cn, y compatible con Claude Code y OpenClaw
- Los suscriptores de GLM Coding Plan pueden usarlo de inmediato cambiando el nombre del modelo a
"GLM-5.1"- En horario pico (UTC+8 14:00–18:00) consume cuota 3×, y en horario no pico 2×
- Hasta finales de abril, el horario no pico tiene una promoción de 1×
- Como entorno GUI, se ofrece Z Code, con soporte para desarrollo remoto por SSH y trabajo móvil
- Los pesos del modelo están disponibles en HuggingFace y ModelScope
- Soporta frameworks principales de inferencia como vLLM y SGLang, con guía de despliegue disponible en GitHub
- Próximamente también podrá usarse en la plataforma de chat de Z.ai
Configuración de evaluación y notas
- HLE y otras tareas de razonamiento: máximo de 163,840 tokens generados, usando GPT-5.2 como modelo evaluador
- SWE-Bench Pro: ventana de contexto de 200K, ejecución basada en OpenHands
- NL2Repo: incluye detección y bloqueo de comandos maliciosos
- Terminal-Bench 2.0: límite de 16 CPU, 32GB de RAM y timeout de 3 horas
- KernelBench Level 3: entorno con GPU H100, límite de 1,200 llamadas a herramientas y auditoría independiente
- Evaluación independiente realizada en diversos benchmarks externos como CyberGym, MCP-Atlas, τ³-bench y Vending Bench 2
1 comentarios
Comentarios en Hacker News
Cada día se vuelven más claras tres cosas
(1) OpenAI y Anthropic ya casi no son competitivos
(2) estoy convencido de que la inferencia local/privada es el futuro de la IA
(3) todavía no ha aparecido un “producto estrella”, así que ya es momento de construirlo de verdad
Acabo de ver una publicación sobre Claude Mythos, y esta vez no se siente como una simple mejora sino como un verdadero salto. Aún no sé cuándo se publicará, pero también espero con ganas el próximo lanzamiento de GLM, cuyas especificaciones se ven absurdamente potentes
También se publicó una versión con quantization de Unsloth. El IQ4_XS del modelo GLM-5.1-GGUF tiene 754B parámetros y pesa 361GB, así que está fuera del alcance del aficionado promedio a los LLM locales
Este modelo no solo me dibujó un excelente pelícano, sino que además lo convirtió en animación
Enlace relacionado
Sinceramente, me dejó un poco con sabor a poco. GLM 5.1 genera TypeScript mucho mejor que Opus o Codex, pero en contextos largos a veces entra en un modo raro. Aun así, también tuve sesiones que funcionaron de forma estable por más de 200k tokens
/compactGLM-5.0 es de verdad uno de los pesos pesados entre los modelos de código abierto. Siempre queda arriba en benchmarks internos y está a un nivel parecido al de GPT-5.2. Lo uso más para tareas no estructuradas que para programar
En mis pruebas, GLM 5.1 rinde peor que GLM 5
Enlace de comparación
Parece que el modelo ahora está ajustado más hacia un enfoque agéntico/centrado en programación
Me parece interesante el enfoque de evaluar la calidad del modelo con base en la velocidad de ejecución del código generado por el agente. Yo pruebo creando un benchmark, fijando una línea base y luego buscando una mejora de 1.4x o más. Opus 4.6 encontró optimizaciones de bajo nivel en código Rust y lo hizo 6 veces más rápido que antes, pasando todas las pruebas. Este tipo de método permite comparar el rendimiento real de una forma más práctica
Viendo los comentarios, parece como si todos llevaran mucho tiempo usando este modelo, y me pregunto si realmente es así
Uso principalmente la versión GLM 4.7 Flash en local para programación agéntica, y es realmente excelente. Esta vez también esperaba una versión Flash, pero me decepcionó que no se mencionara en las notas de la versión. Aun así, creo que saldrá pronto