GLM-5.1: evolución hacia la ejecución de tareas de largo plazo

(z.ai)

8 puntos por GN⁺ 23 일 전 | 1 comentarios | Compartir por WhatsApp

El modelo insignia de nueva generación GLM-5.1 de ingeniería agéntica está diseñado con un fuerte refuerzo en capacidades de codificación y resolución de problemas, con optimización de largo plazo y mejora continua como eje central
Registra rendimiento de primer nivel en benchmarks clave como SWE-Bench Pro, NL2Repo y Terminal-Bench 2.0, y mantiene persistencia productiva incluso en ejecuciones iterativas prolongadas
En VectorDBBench, KernelBench y escenarios de construcción de aplicaciones web, continúa mejorando su desempeño a lo largo de cientos o miles de iteraciones, eliminando cuellos de botella mediante análisis de sus propios logs y ajustes de estrategia
El modelo funciona de forma eficiente incluso en tareas complejas de ingeniería de software mediante autoevaluación y cambios estructurales, y la calidad de los resultados mejora de forma constante en ejecuciones largas
Se publica como open source con licencia MIT, puede usarse en diversas plataformas y frameworks, y se presenta como un nuevo estándar para modelos de IA orientados a la optimización de largo plazo

Resumen de GLM-5.1

GLM-5.1 es un modelo de nueva generación de ingeniería agéntica (agentic engineering), y es el modelo insignia con un rendimiento de codificación muy superior al de la versión anterior
Logra el mejor rendimiento en SWE-Bench Pro y también se impone con una amplia ventaja frente a GLM-5 en NL2Repo (generación de repositorios) y Terminal-Bench 2.0 (tareas reales en terminal)
Está diseñado no solo para el rendimiento en una sola ejecución, sino con énfasis en la capacidad de optimización de largo plazo y la resolución continua de problemas
Evalúa mejor problemas ambiguos, mantiene la productividad en sesiones largas y, mediante experimentación repetitiva y ajustes de estrategia, sigue mejorando su rendimiento incluso tras cientos de iteraciones
Su arquitectura hace que los resultados mejoren cuanto más tiempo se ejecuta, y su rasgo central es la capacidad de trabajo de largo horizonte (long-horizon capability)

Tareas complejas de ingeniería de software

GLM-5.1 alcanza rendimiento de primer nivel en tareas complejas de ingeniería de software
Mientras que modelos anteriores se estancan rápidamente tras mejoras iniciales, GLM-5.1 mantiene la eficiencia incluso en trabajos agénticos de largo plazo
El modelo divide los problemas en partes, ejecuta experimentos, analiza resultados para identificar cuellos de botella y ajusta su estrategia mediante razonamiento iterativo
Esto se demuestra en tres tareas con una estructuración progresivamente menor
- Problema de optimización de búsqueda vectorial (basado en una sola métrica numérica)
- Benchmark de kernels de GPU (medición de mejora de velocidad por problema)
- Construcción de aplicaciones web (mejora basada en juicio propio sin métricas explícitas)

Escenario 1: optimización de base de datos vectorial mediante 600 iteraciones

VectorDBBench es un reto open source que evalúa la capacidad de codificación del modelo para construir una base de datos de alto rendimiento para búsqueda aproximada de vecinos más cercanos
El modelo recibe código base en Rust y endpoints de API HTTP, y debe realizar lectura/escritura de archivos, compilación, pruebas y profiling dentro de 50 llamadas a herramientas (tool-call)
El mejor rendimiento previo era de 3,547 QPS de Claude Opus 4.6 (Recall ≥ 95%)
GLM-5.1 añadió un bucle externo de optimización y realizó más de 600 iteraciones (más de 6,000 llamadas a herramientas), alcanzando finalmente 21.5k QPS
- Esto representa una mejora de aproximadamente 6 veces frente a una sola sesión de 50 llamadas
El proceso de mejora del rendimiento muestra un patrón escalonado (staircase), en el que se alternan ajustes graduales y cambios estructurales
- Alrededor de la iteración 90: introducción de IVF cluster probing + compresión de vectores f16 → 6.4k QPS
- Alrededor de la iteración 240: introducción de un pipeline de dos etapas con u8 prescoring + reranking f16 → 13.4k QPS
Se produjeron un total de 6 cambios estructurales, cada uno resultado de que el modelo analizara sus propios logs para identificar cuellos de botella
Los puntos en que el Recall cayó por debajo de 95% se concentraron principalmente en momentos de exploración de nuevas estrategias

Escenario 2: optimización de cargas de trabajo de machine learning con más de 1,000 iteraciones

KernelBench evalúa la capacidad del modelo para convertir una implementación de referencia en PyTorch en un kernel de GPU más rápido con la misma salida
Consta de tres etapas (Level 1–3), y Level 3 incluye optimización a nivel de modelo completo como MobileNet, VGG, MiniGPT, Mamba
La configuración base de torch.compile logra una mejora de velocidad de 1.15×, y max-autotune alcanza 1.49×
GLM-5.1 registra una mejora de velocidad de 3.6× en Level 3, y mantiene optimizaciones efectivas durante mucho más tiempo que GLM-5
GLM-5 se estanca tras un ascenso inicial, mientras que Claude Opus 4.5 dura más pero se desacelera en la fase final
Claude Opus 4.6 mantiene finalmente el mayor rendimiento con 4.2×, y aún parece haber margen para mejoras adicionales

Escenario 3: construcción de una webapp tipo escritorio Linux durante 8 horas

La creación de sitios web es una tarea subjetiva sin métricas numéricas explícitas, donde se evalúan el nivel de terminación, la calidad visual y la calidad de la interacción
Prompt de prueba: “Construye un entorno de escritorio estilo Linux como una aplicación web”
- Se inicia sin código inicial, diseño ni retroalimentación intermedia
La mayoría de los modelos generan solo una UI básica y terminan, pero GLM-5.1 continúa evolucionando mediante un bucle de revisión y mejora de sus propios resultados
Se ejecuta iterativamente durante 8 horas, expandiéndose gradualmente desde un layout simple inicial hasta un entorno de escritorio completo
- Se agregan explorador de archivos, terminal, editor de texto, monitor del sistema, calculadora, juegos y más
- Cada función se integra en una UI consistente, y tanto el estilo como la calidad de interacción mejoran progresivamente
El resultado final es un entorno de escritorio completo y visualmente consistente que se ejecuta dentro del navegador

Significado y retos de la optimización de largo plazo

En los tres escenarios, la variable clave no es el tiempo de ejecución en sí, sino si el tiempo adicional realmente resulta útil
GLM-5.1 amplía de forma importante el horizonte productivo (productive horizon) frente a GLM-5
Sin embargo, en algunas tareas como KernelBench todavía existe margen de mejora
Retos pendientes
- Escapar de óptimos locales cuando el ajuste gradual alcanza su límite
- Mantener consistencia a lo largo de miles de llamadas a herramientas
- Autoevaluación confiable (self-evaluation) en tareas sin métricas numéricas explícitas
GLM-5.1 se presenta como un primer paso hacia esta dirección de optimización de largo plazo

Resumen comparativo de benchmarks

GLM-5.1 supera a GLM-5 en benchmarks clave de codificación como SWE-Bench Pro 58.4, NL2Repo 42.7 y Terminal-Bench 2.0 63.5
Muestra rendimiento de primer nivel frente a modelos competidores en Reasoning, Coding y Agentic
Incluso frente a modelos recientes como Claude Opus 4.6, Gemini 3.1 Pro y GPT-5.4, queda cerca o por delante en múltiples apartados

Publicación y forma de uso

Publicado como open source bajo licencia MIT
Disponible en api.z.ai y BigModel.cn, y compatible con Claude Code y OpenClaw
Los suscriptores de GLM Coding Plan pueden usarlo de inmediato cambiando el nombre del modelo a "GLM-5.1"
- En horario pico (UTC+8 14:00–18:00) consume cuota 3×, y en horario no pico 2×
- Hasta finales de abril, el horario no pico tiene una promoción de 1×
Como entorno GUI, se ofrece Z Code, con soporte para desarrollo remoto por SSH y trabajo móvil
Los pesos del modelo están disponibles en HuggingFace y ModelScope
Soporta frameworks principales de inferencia como vLLM y SGLang, con guía de despliegue disponible en GitHub
Próximamente también podrá usarse en la plataforma de chat de Z.ai

Configuración de evaluación y notas

HLE y otras tareas de razonamiento: máximo de 163,840 tokens generados, usando GPT-5.2 como modelo evaluador
SWE-Bench Pro: ventana de contexto de 200K, ejecución basada en OpenHands
NL2Repo: incluye detección y bloqueo de comandos maliciosos
Terminal-Bench 2.0: límite de 16 CPU, 32GB de RAM y timeout de 3 horas
KernelBench Level 3: entorno con GPU H100, límite de 1,200 llamadas a herramientas y auditoría independiente
Evaluación independiente realizada en diversos benchmarks externos como CyberGym, MCP-Atlas, τ³-bench y Vending Bench 2

1 comentarios

GN⁺ 23 일 전

Comentarios en Hacker News

Cada día se vuelven más claras tres cosas
(1) OpenAI y Anthropic ya casi no son competitivos
(2) estoy convencido de que la inferencia local/privada es el futuro de la IA
(3) todavía no ha aparecido un “producto estrella”, así que ya es momento de construirlo de verdad
- No estoy de acuerdo con eso de que “no hay producto estrella”. Los asistentes de programación y los LLM son el logro tecnológico más asombroso de mi vida. Creo que, igual que hubo un antes y un después de la Revolución Industrial, pronto la historia humana se dividirá entre antes y después de la IA
- Los asistentes de programación con IA son de las tecnologías más útiles que se han creado. La calidad del modelo es lo más importante, así que, salvo que el hardware cambie de forma fundamental, no veo fácil que la inferencia local se vuelva dominante
- Me pregunto qué ventaja práctica real tiene que una persona gaste 50 mil dólares en GPUs para correrlo por su cuenta, más allá de ser un hobby genial
Acabo de ver una publicación sobre Claude Mythos, y esta vez no se siente como una simple mejora sino como un verdadero salto. Aún no sé cuándo se publicará, pero también espero con ganas el próximo lanzamiento de GLM, cuyas especificaciones se ven absurdamente potentes
También se publicó una versión con quantization de Unsloth. El IQ4_XS del modelo GLM-5.1-GGUF tiene 754B parámetros y pesa 361GB, así que está fuera del alcance del aficionado promedio a los LLM locales
- Con buen soporte de software, también se puede hacer SSD offloading. Claro, en ese caso más que “ejecutarlo” sería verlo “arrastrarse”, pero aun así podrías obtener respuestas localmente. Últimamente incluso han surgido intentos de diseñar la estructura de n-grams y parámetros internos de embeddings pensando desde el inicio en el SSD offloading
Este modelo no solo me dibujó un excelente pelícano, sino que además lo convirtió en animación
Enlace relacionado
- Lo representó de una forma mucho más realista. A un pelícano le queda más natural volar que andar en bicicleta
- Simon, ya es hora de crear un benchmark mejor
Sinceramente, me dejó un poco con sabor a poco. GLM 5.1 genera TypeScript mucho mejor que Opus o Codex, pero en contextos largos a veces entra en un modo raro. Aun así, también tuve sesiones que funcionaron de forma estable por más de 200k tokens
- Si funciona bien y además la velocidad es aceptable, sería realmente impresionante. Ayer resolvió un problema que Kimi K2.5 no pudo. Eso sí, a veces sigue siendo lento. Se siente cercano al nivel de Opus 4.5
- Yo configuro la ventana de contexto en 100k y hago compact periódicamente, o documento el estado para iniciar una nueva sesión. Como Opus 4.6 anda inestable últimamente, uso GLM 5.1 la mayor parte del tiempo. Sorprende lo mucho que ha mejorado la calidad de los modelos abiertos
- Que un modelo de código abierto supere a uno cerrado es ganancia neta para el usuario
- Alrededor de los 100k tokens ya conviene abrir una sesión nueva o usar el comando /compact
- Me quedó la costumbre de los tiempos de Claude y Codex, así que todavía limpio el contexto con frecuencia. Por muy moderno que sea el modelo, aún no confío en contextos gigantescos
GLM-5.0 es de verdad uno de los pesos pesados entre los modelos de código abierto. Siempre queda arriba en benchmarks internos y está a un nivel parecido al de GPT-5.2. Lo uso más para tareas no estructuradas que para programar
- Aún no he probado 5.1, pero en programación PHP produce resultados 99% parecidos a Sonnet/Opus/GPT-5. Y además puede correrse en local
- Estoy creando un dataset para conversión de Python ↔ Cython, y muestra la segunda tasa de aceptación más alta (16%) después de Gemini Pro 3.1. Los modelos de gama media andan por 6~7%, así que no hay comparación
- Mi caso de uso está más del lado de entender codebases y analizar documentación que de escribir código, y este modelo funciona mejor que los modelos estadounidenses a la mitad del precio
En mis pruebas, GLM 5.1 rinde peor que GLM 5
Enlace de comparación
Parece que el modelo ahora está ajustado más hacia un enfoque agéntico/centrado en programación
- La caída de rendimiento se nota especialmente en la versión (none)
Me parece interesante el enfoque de evaluar la calidad del modelo con base en la velocidad de ejecución del código generado por el agente. Yo pruebo creando un benchmark, fijando una línea base y luego buscando una mejora de 1.4x o más. Opus 4.6 encontró optimizaciones de bajo nivel en código Rust y lo hizo 6 veces más rápido que antes, pasando todas las pruebas. Este tipo de método permite comparar el rendimiento real de una forma más práctica
Viendo los comentarios, parece como si todos llevaran mucho tiempo usando este modelo, y me pregunto si realmente es así
- La entrada del blog es nueva, pero el modelo ya estaba disponible desde hace dos semanas
- Se rompió el sitio de reservas de canchas de tenis de mi zona, así que le pedí a GLM-5.1 que analizara la API, y en 5 minutos encontró el endpoint /cancel.php y extrajo el ID de la reserva mediante blind SQL injection. Fue demasiado entusiasta, pero realmente impresionante
- Ya estaba disponible desde bastante antes
Uso principalmente la versión GLM 4.7 Flash en local para programación agéntica, y es realmente excelente. Esta vez también esperaba una versión Flash, pero me decepcionó que no se mencionara en las notas de la versión. Aun así, creo que saldrá pronto

GLM-5.1: evolución hacia la ejecución de tareas de largo plazo

Resumen de GLM-5.1

Tareas complejas de ingeniería de software

Escenario 1: optimización de base de datos vectorial mediante 600 iteraciones

Escenario 2: optimización de cargas de trabajo de machine learning con más de 1,000 iteraciones

Escenario 3: construcción de una webapp tipo escritorio Linux durante 8 horas

Significado y retos de la optimización de largo plazo

Resumen comparativo de benchmarks

Publicación y forma de uso

Configuración de evaluación y notas

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News