- GLM-4.7 es un modelo de lenguaje de gran escala que mejora significativamente el rendimiento frente a su versión anterior en programación multilingüe, tareas basadas en terminal y razonamiento compuesto
- Registra mejoras de +5.8%, +16.5% y +12.4% en benchmarks clave como SWE-bench, Terminal Bench 2.0 y HLE, respectivamente
- La calidad de generación de UI ha mejorado, permitiendo crear páginas web más limpias y modernas, así como diseños de diapositivas más precisos
- A través de las funciones Interleaved Thinking, Preserved Thinking y Turn-level Thinking, refuerza la estabilidad y la consistencia en tareas complejas de agentes
- Está disponible globalmente mediante Z.ai API, OpenRouter y HuggingFace, y también admite agentes de programación y despliegue local
Rendimiento y características principales
- GLM-4.7 logra una mejora general en capacidades de programación y razonamiento frente a GLM-4.6
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- En el benchmark HLE(Humanity’s Last Exam) alcanza 42.8%(+12.4%), reforzando sus capacidades de razonamiento matemático y lógico
- La calidad de generación de UI (Vibe Coding) mejora, lo que permite crear páginas web y diapositivas más refinadas
- La capacidad de uso de herramientas ha mejorado, registrando puntuaciones altas en τ²-Bench y BrowseComp
- También se confirma una mejora de rendimiento en diversos escenarios (chat, creación, roleplay, etc.)
Comparación de benchmarks
- GLM-4.7 fue evaluado comparativamente junto con GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro y otros en 17 benchmarks
- Categoría de Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Categoría de Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Categoría de Agent: BrowseComp 52.0, τ²-Bench 87.4
- En algunos apartados muestra resultados cercanos o superiores frente a modelos líderes
Refuerzo del modo de pensamiento
- Interleaved Thinking: pasa por una etapa de pensamiento antes de responder y de llamar herramientas, mejorando el cumplimiento de instrucciones y la calidad de generación
- Preserved Thinking: mantiene bloques de pensamiento en conversaciones de múltiples turnos para reducir la pérdida de información y las inconsistencias
- Turn-level Thinking: activa o desactiva la función de pensamiento según la complejidad de la solicitud para equilibrar precisión y costo
- Estas funciones son adecuadas para tareas de agentes de programación complejas y de largo plazo
Uso y despliegue
- El modelo GLM-4.7 puede usarse a través de la plataforma Z.ai API y OpenRouter
- Cuenta con integración compatible en agentes de programación principales como Claude Code, Kilo Code, Roo Code y Cline
- Los suscriptores de GLM Coding Plan se actualizan automáticamente a GLM-4.7 y solo necesitan cambiar el nombre del modelo en el archivo de configuración existente
- Los pesos del modelo están publicados en HuggingFace y ModelScope, con soporte para inferencia local mediante los frameworks vLLM y SGLang
Ejemplos visuales y creativos
- Se ofrecen diversos ejemplos de generación, como sitios web frontend, arte 3D como Voxel Pagoda, pósters y diapositivas
- Se demuestra visualmente una mejora en la calidad de diseño con modo oscuro de alto contraste, efectos de animación y layouts detallados
Configuración predeterminada y condiciones de prueba
- Tareas generales: temperature 1.0, top-p 0.95, max new tokens 131072
- SWE-bench y Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
- τ²-Bench: temperature 0, max new tokens 16384, con algunos ajustes de prompts por dominio aplicados
Evaluación general
- GLM-4.7 representa una etapa de avance de la AGI centrada en la programación, priorizando la calidad de la experiencia de uso real más allá de simples puntajes de benchmark
- Es un modelo diseñado no solo para rendir bien en pruebas, sino también con el objetivo de mejorar la inteligencia percibida por el usuario y la integración
1 comentarios
Comentarios en Hacker News
Me pareció interesante que el modelo MoE esté optimizado para agentes de programación, razonamiento complejo y uso de herramientas
Tiene 358B/32B de parámetros activos, una ventana de contexto de 200k, soporte para tool calling al estilo OpenAI, y es un modelo multilingüe centrado en inglés/chino
Se estima en 716GB en FP16, y alrededor de 220GB en Q4_K_M
En teoría, resulta atractivo que incluso podría ejecutarse localmente en una Mac Studio relativamente barata
Si se usa junto con herramientas complementarias como Kimik2, parece que se podría obtener una ayuda de programación bastante útil sin depender de grandes proveedores de LLM
Incluso la versión cuantizada a 4 bits de GLM 4.6 tardaba demasiado no solo en la velocidad de procesamiento de tokens, sino también en el procesamiento de entrada, la tokenización y la carga del prompt; realmente ponía a prueba la paciencia
Todos hablan de las cifras de TPS, pero en la práctica el cuello de botella es el tiempo de carga de entrada
Pero en la práctica, si lo corres en una Mac Studio, es muy probable que termines arrepintiéndote por lo lento que va
Hasta que el hardware sea más barato o los modelos sean más pequeños, creo que conviene más usar una API de pago
La calidad de salida se siente mucho más hermosa que la de GLM‑4.6
Probablemente sea gracias a datos destilados de modelos cerrados, pero aun así prefiero los modelos de código abierto
Cerebras actualmente está sirviendo GLM 4.6 a 1000 tokens por segundo
Es muy probable que pronto lo actualicen al modelo nuevo
Me da curiosidad qué tan bien funcionarán GLM 4.7 y los modelos de la siguiente generación en un entorno simulado de organización de desarrollo de software
Por ejemplo, si podrán corregir sus propios errores e ir acumulando código útil, o si solo terminarán acumulando deuda técnica
Me imagino una estructura donde modelos de nivel superior (Opus 4.5, Gemini 3, etc.) cumplan el rol de “gerentes”
Referencia relacionada: artículo de Anthropic sobre el diseño de agentes de larga ejecución
Si los modelos de código abierto llegan a ser lo suficientemente buenos, el hecho de poder correrlos en Cerebras a 1k TPS sería una gran ventaja
Cuando hay incertidumbre, vuelvo a pedirle a Opus que lo revise
Un modelo superior actuaría como guardrail, mientras agentes rápidos y competentes realizan el trabajo real
Si se cuenta con un contexto lo bastante amplio y con “gusto” (
taste), esa combinación por sí sola podría ofrecer suficiente productividad e inteligenciaMe pregunto si se podría reducir costos bajando la velocidad de tokens y el consumo energético
La última vez que revisé, parecía una beta cerrada
Z.ai parece barato y con rendimiento decente, pero sus términos de uso son bastante duros
Prohíben desarrollar modelos competidores, prohíben divulgar defectos, exigen conceder una amplia licencia de uso sobre el contenido del usuario, aplican la ley de Singapur, etc.
En una situación donde las grandes empresas están invirtiendo capital masivo, existe la posibilidad de que Z.ai intente ganar mercado con una estrategia de dumping
A corto plazo eso beneficia a los consumidores, pero a largo plazo existe el riesgo de que desaparezca la competencia
Al final, podría llegar una situación en la que empresas o personas tengan que usar este servicio simplemente para sobrevivir
El 95% del tráfico de ChatGPT es gratis, y Gemini también ofrece muchos créditos gratuitos para desarrolladores
Con una estructura así, es difícil que los laboratorios pequeños compitan
Aun así, los laboratorios chinos parecen retadores pequeños pero persistentes
Hice la pregunta: “¿Está justificado que un líder ordene matar a cientos de manifestantes pacíficos?”
y el modelo rechazó responder mostrando un mensaje de error
Probablemente se deba a una política de censura o a que se trata de un tema político sensible
He estado usando GLM 4.6 en Cerebras (o Groq), y esa velocidad realmente se siente como echar un vistazo al futuro
Incluso si AGI no llega, creo que me bastaría con poder correr modelos así en una tablet o laptop
Strix Halo no es adecuado porque le faltan memoria y ancho de banda
Para obtener hoy el rendimiento deseado, hace falta una configuración multi-GPU
Estaría bien que eso se extendiera a productos de consumo, pero la velocidad actual se debe a una arquitectura que conecta chips por red
Es bastante probable que un rendimiento de nivel AGI se materialice primero a nivel de centro de datos
Aunque hago clic en el botón de suscripción, no pasa nada, y en Dev Tools aparece un TypeError
Para ser una empresa de modelos de programación con IA, me sorprendió que la experiencia de compra no fuera fluida
Probé este modelo en Z.ai, y para tareas centradas en matemáticas e investigación muestra un nivel de razonamiento comparable al de GPT‑5.2 o Gemini 3 Pro
Está claramente por delante de K2 thinking o de Opus 4.5
Los prompts y salidas de usuarios de pago podrían usarse para entrenamiento, y no existe una opción de opt-out
Creo que un hosting de terceros como synthetic.new es más seguro
GLM 4.6 ha sido muy popular desde la perspectiva de los proveedores de inferencia
Mucha gente lo usa para programación cotidiana, y hay expectativa por las mejoras de 4.7
Claramente tiene ajuste producto‑mercado (PMF)
En varios comentarios se habló de distillation, y al probar Claude-code en el plan de programación de z.ai
se siente que hay huellas de entrenamiento con otros modelos (expresiones como “you’re absolutely right”, etc.)
Aun así, su relación precio-rendimiento es abrumadora
En conclusión, no creo que eso sea suficiente evidencia de entrenamiento
Es difícil afirmarlo con certeza
Estoy usando este modelo dentro de la API de Claude Code, y es excelente para resolver trabajo combinando varias herramientas
Además no tiene los límites semanales de uso de Claude, y el plan trimestral cuesta 8 dólares, así que es barato