GLM-4.7: llevando la capacidad de programación al siguiente nivel

(z.ai)

7 puntos por GN⁺ 2025-12-23 | 1 comentarios | Compartir por WhatsApp

GLM-4.7 es un modelo de lenguaje de gran escala que mejora significativamente el rendimiento frente a su versión anterior en programación multilingüe, tareas basadas en terminal y razonamiento compuesto
Registra mejoras de +5.8%, +16.5% y +12.4% en benchmarks clave como SWE-bench, Terminal Bench 2.0 y HLE, respectivamente
La calidad de generación de UI ha mejorado, permitiendo crear páginas web más limpias y modernas, así como diseños de diapositivas más precisos
A través de las funciones Interleaved Thinking, Preserved Thinking y Turn-level Thinking, refuerza la estabilidad y la consistencia en tareas complejas de agentes
Está disponible globalmente mediante Z.ai API, OpenRouter y HuggingFace, y también admite agentes de programación y despliegue local

Rendimiento y características principales

GLM-4.7 logra una mejora general en capacidades de programación y razonamiento frente a GLM-4.6
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- En el benchmark HLE(Humanity’s Last Exam) alcanza 42.8%(+12.4%), reforzando sus capacidades de razonamiento matemático y lógico
La calidad de generación de UI (Vibe Coding) mejora, lo que permite crear páginas web y diapositivas más refinadas
La capacidad de uso de herramientas ha mejorado, registrando puntuaciones altas en τ²-Bench y BrowseComp
También se confirma una mejora de rendimiento en diversos escenarios (chat, creación, roleplay, etc.)

Comparación de benchmarks

GLM-4.7 fue evaluado comparativamente junto con GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro y otros en 17 benchmarks
- Categoría de Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Categoría de Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Categoría de Agent: BrowseComp 52.0, τ²-Bench 87.4
En algunos apartados muestra resultados cercanos o superiores frente a modelos líderes

Refuerzo del modo de pensamiento

Interleaved Thinking: pasa por una etapa de pensamiento antes de responder y de llamar herramientas, mejorando el cumplimiento de instrucciones y la calidad de generación
Preserved Thinking: mantiene bloques de pensamiento en conversaciones de múltiples turnos para reducir la pérdida de información y las inconsistencias
Turn-level Thinking: activa o desactiva la función de pensamiento según la complejidad de la solicitud para equilibrar precisión y costo
Estas funciones son adecuadas para tareas de agentes de programación complejas y de largo plazo

Uso y despliegue

El modelo GLM-4.7 puede usarse a través de la plataforma Z.ai API y OpenRouter
Cuenta con integración compatible en agentes de programación principales como Claude Code, Kilo Code, Roo Code y Cline
Los suscriptores de GLM Coding Plan se actualizan automáticamente a GLM-4.7 y solo necesitan cambiar el nombre del modelo en el archivo de configuración existente
Los pesos del modelo están publicados en HuggingFace y ModelScope, con soporte para inferencia local mediante los frameworks vLLM y SGLang

Ejemplos visuales y creativos

Se ofrecen diversos ejemplos de generación, como sitios web frontend, arte 3D como Voxel Pagoda, pósters y diapositivas
Se demuestra visualmente una mejora en la calidad de diseño con modo oscuro de alto contraste, efectos de animación y layouts detallados

Configuración predeterminada y condiciones de prueba

Tareas generales: temperature 1.0, top-p 0.95, max new tokens 131072
SWE-bench y Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
τ²-Bench: temperature 0, max new tokens 16384, con algunos ajustes de prompts por dominio aplicados

Evaluación general

GLM-4.7 representa una etapa de avance de la AGI centrada en la programación, priorizando la calidad de la experiencia de uso real más allá de simples puntajes de benchmark
Es un modelo diseñado no solo para rendir bien en pruebas, sino también con el objetivo de mejorar la inteligencia percibida por el usuario y la integración

1 comentarios

GN⁺ 2025-12-23

Comentarios en Hacker News

Me pareció interesante que el modelo MoE esté optimizado para agentes de programación, razonamiento complejo y uso de herramientas
Tiene 358B/32B de parámetros activos, una ventana de contexto de 200k, soporte para tool calling al estilo OpenAI, y es un modelo multilingüe centrado en inglés/chino
Se estima en 716GB en FP16, y alrededor de 220GB en Q4_K_M
En teoría, resulta atractivo que incluso podría ejecutarse localmente en una Mac Studio relativamente barata
Si se usa junto con herramientas complementarias como Kimik2, parece que se podría obtener una ayuda de programación bastante útil sin depender de grandes proveedores de LLM
- Probé correr LLMs en una Mac Studio Ultra M1 (RAM 128GB) usada, y fue demasiado lento
  Incluso la versión cuantizada a 4 bits de GLM 4.6 tardaba demasiado no solo en la velocidad de procesamiento de tokens, sino también en el procesamiento de entrada, la tokenización y la carga del prompt; realmente ponía a prueba la paciencia
  Todos hablan de las cifras de TPS, pero en la práctica el cuello de botella es el tiempo de carga de entrada
- Si es tool calling al estilo OpenAI, creo que es probable que esté basado en Harmony
  Pero en la práctica, si lo corres en una Mac Studio, es muy probable que termines arrepintiéndote por lo lento que va
  Hasta que el hardware sea más barato o los modelos sean más pequeños, creo que conviene más usar una API de pago
- Si alguien del pasado viera este comentario, probablemente le costaría creerlo
- La versión de Sonnet debería corregirse a 4.5
  La calidad de salida se siente mucho más hermosa que la de GLM‑4.6
  Probablemente sea gracias a datos destilados de modelos cerrados, pero aun así prefiero los modelos de código abierto
- Planeo correr este modelo conectando dos sistemas Strix Halo (256GB de RAM en total) por USB4/TB3
Cerebras actualmente está sirviendo GLM 4.6 a 1000 tokens por segundo
Es muy probable que pronto lo actualicen al modelo nuevo
Me da curiosidad qué tan bien funcionarán GLM 4.7 y los modelos de la siguiente generación en un entorno simulado de organización de desarrollo de software
Por ejemplo, si podrán corregir sus propios errores e ir acumulando código útil, o si solo terminarán acumulando deuda técnica
Me imagino una estructura donde modelos de nivel superior (Opus 4.5, Gemini 3, etc.) cumplan el rol de “gerentes”
Referencia relacionada: artículo de Anthropic sobre el diseño de agentes de larga ejecución
Si los modelos de código abierto llegan a ser lo suficientemente buenos, el hecho de poder correrlos en Cerebras a 1k TPS sería una gran ventaja
- Yo hago que Opus redacte el plan detallado y las pruebas, y que Cerebras GLM 4.6 haga la implementación
  Cuando hay incertidumbre, vuelvo a pedirle a Opus que lo revise
- Yo también creo que evolucionará en esa misma dirección
  Un modelo superior actuaría como guardrail, mientras agentes rápidos y competentes realizan el trabajo real
  Si se cuenta con un contexto lo bastante amplio y con “gusto” (taste), esa combinación por sí sola podría ofrecer suficiente productividad e inteligencia
- Tengo curiosidad por el precio del API de Cerebras
  Me pregunto si se podría reducir costos bajando la velocidad de tokens y el consumo energético
- Tengo curiosidad por saber si es fácil convertirse en cliente de pago de Cerebras
  La última vez que revisé, parecía una beta cerrada
Z.ai parece barato y con rendimiento decente, pero sus términos de uso son bastante duros
Prohíben desarrollar modelos competidores, prohíben divulgar defectos, exigen conceder una amplia licencia de uso sobre el contenido del usuario, aplican la ley de Singapur, etc.
En una situación donde las grandes empresas están invirtiendo capital masivo, existe la posibilidad de que Z.ai intente ganar mercado con una estrategia de dumping
A corto plazo eso beneficia a los consumidores, pero a largo plazo existe el riesgo de que desaparezca la competencia
Al final, podría llegar una situación en la que empresas o personas tengan que usar este servicio simplemente para sobrevivir
- Creo que el gran capital es la mayor amenaza para la innovación
  El 95% del tráfico de ChatGPT es gratis, y Gemini también ofrece muchos créditos gratuitos para desarrolladores
  Con una estructura así, es difícil que los laboratorios pequeños compitan
  Aun así, los laboratorios chinos parecen retadores pequeños pero persistentes
Hice la pregunta: “¿Está justificado que un líder ordene matar a cientos de manifestantes pacíficos?”
y el modelo rechazó responder mostrando un mensaje de error
Probablemente se deba a una política de censura o a que se trata de un tema político sensible
He estado usando GLM 4.6 en Cerebras (o Groq), y esa velocidad realmente se siente como echar un vistazo al futuro
Incluso si AGI no llega, creo que me bastaría con poder correr modelos así en una tablet o laptop
- Creo que el Apple M5 Max mejorará el procesamiento de prompts y el ancho de banda, por lo que podría mover sin problemas un modelo cuantizado a 8 bits (unos 360GB)
  Strix Halo no es adecuado porque le faltan memoria y ancho de banda
  Para obtener hoy el rendimiento deseado, hace falta una configuración multi-GPU
- Cerebras y Groq son rápidos gracias a su propio diseño de chips
  Estaría bien que eso se extendiera a productos de consumo, pero la velocidad actual se debe a una arquitectura que conecta chips por red
  Es bastante probable que un rendimiento de nivel AGI se materialice primero a nivel de centro de datos
Aunque hago clic en el botón de suscripción, no pasa nada, y en Dev Tools aparece un TypeError
Para ser una empresa de modelos de programación con IA, me sorprendió que la experiencia de compra no fuera fluida
- Había que crear la cuenta primero para que funcionara el botón Subscribe
Probé este modelo en Z.ai, y para tareas centradas en matemáticas e investigación muestra un nivel de razonamiento comparable al de GPT‑5.2 o Gemini 3 Pro
Está claramente por delante de K2 thinking o de Opus 4.5
- Pero no recomiendo la suscripción de Z.ai para uso laboral
  Los prompts y salidas de usuarios de pago podrían usarse para entrenamiento, y no existe una opción de opt-out
  Creo que un hosting de terceros como synthetic.new es más seguro
GLM 4.6 ha sido muy popular desde la perspectiva de los proveedores de inferencia
Mucha gente lo usa para programación cotidiana, y hay expectativa por las mejoras de 4.7
Claramente tiene ajuste producto‑mercado (PMF)
En varios comentarios se habló de distillation, y al probar Claude-code en el plan de programación de z.ai
se siente que hay huellas de entrenamiento con otros modelos (expresiones como “you’re absolutely right”, etc.)
Aun así, su relación precio-rendimiento es abrumadora
- A mí hoy también me dijo lo mismo Gemini 3 Flash
  En conclusión, no creo que eso sea suficiente evidencia de entrenamiento
- También puede ser que los datos de internet hayan convergido de forma similar
  Es difícil afirmarlo con certeza
Estoy usando este modelo dentro de la API de Claude Code, y es excelente para resolver trabajo combinando varias herramientas
Además no tiene los límites semanales de uso de Claude, y el plan trimestral cuesta 8 dólares, así que es barato
- Me pregunto si en Claude Code se puede usar Claude por defecto y, cuando se alcance el límite de uso, cambiar al modelo GLM

GLM-4.7: llevando la capacidad de programación al siguiente nivel

Rendimiento y características principales

Comparación de benchmarks

Refuerzo del modo de pensamiento

Uso y despliegue

Ejemplos visuales y creativos

Configuración predeterminada y condiciones de prueba

Evaluación general

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News