7 puntos por GN⁺ 2025-12-23 | 1 comentarios | Compartir por WhatsApp
  • GLM-4.7 es un modelo de lenguaje de gran escala que mejora significativamente el rendimiento frente a su versión anterior en programación multilingüe, tareas basadas en terminal y razonamiento compuesto
  • Registra mejoras de +5.8%, +16.5% y +12.4% en benchmarks clave como SWE-bench, Terminal Bench 2.0 y HLE, respectivamente
  • La calidad de generación de UI ha mejorado, permitiendo crear páginas web más limpias y modernas, así como diseños de diapositivas más precisos
  • A través de las funciones Interleaved Thinking, Preserved Thinking y Turn-level Thinking, refuerza la estabilidad y la consistencia en tareas complejas de agentes
  • Está disponible globalmente mediante Z.ai API, OpenRouter y HuggingFace, y también admite agentes de programación y despliegue local

Rendimiento y características principales

  • GLM-4.7 logra una mejora general en capacidades de programación y razonamiento frente a GLM-4.6
    • SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
    • En el benchmark HLE(Humanity’s Last Exam) alcanza 42.8%(+12.4%), reforzando sus capacidades de razonamiento matemático y lógico
  • La calidad de generación de UI (Vibe Coding) mejora, lo que permite crear páginas web y diapositivas más refinadas
  • La capacidad de uso de herramientas ha mejorado, registrando puntuaciones altas en τ²-Bench y BrowseComp
  • También se confirma una mejora de rendimiento en diversos escenarios (chat, creación, roleplay, etc.)

Comparación de benchmarks

  • GLM-4.7 fue evaluado comparativamente junto con GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro y otros en 17 benchmarks
    • Categoría de Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
    • Categoría de Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
    • Categoría de Agent: BrowseComp 52.0, τ²-Bench 87.4
  • En algunos apartados muestra resultados cercanos o superiores frente a modelos líderes

Refuerzo del modo de pensamiento

  • Interleaved Thinking: pasa por una etapa de pensamiento antes de responder y de llamar herramientas, mejorando el cumplimiento de instrucciones y la calidad de generación
  • Preserved Thinking: mantiene bloques de pensamiento en conversaciones de múltiples turnos para reducir la pérdida de información y las inconsistencias
  • Turn-level Thinking: activa o desactiva la función de pensamiento según la complejidad de la solicitud para equilibrar precisión y costo
  • Estas funciones son adecuadas para tareas de agentes de programación complejas y de largo plazo

Uso y despliegue

  • El modelo GLM-4.7 puede usarse a través de la plataforma Z.ai API y OpenRouter
  • Cuenta con integración compatible en agentes de programación principales como Claude Code, Kilo Code, Roo Code y Cline
  • Los suscriptores de GLM Coding Plan se actualizan automáticamente a GLM-4.7 y solo necesitan cambiar el nombre del modelo en el archivo de configuración existente
  • Los pesos del modelo están publicados en HuggingFace y ModelScope, con soporte para inferencia local mediante los frameworks vLLM y SGLang

Ejemplos visuales y creativos

  • Se ofrecen diversos ejemplos de generación, como sitios web frontend, arte 3D como Voxel Pagoda, pósters y diapositivas
  • Se demuestra visualmente una mejora en la calidad de diseño con modo oscuro de alto contraste, efectos de animación y layouts detallados

Configuración predeterminada y condiciones de prueba

  • Tareas generales: temperature 1.0, top-p 0.95, max new tokens 131072
  • SWE-bench y Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
  • τ²-Bench: temperature 0, max new tokens 16384, con algunos ajustes de prompts por dominio aplicados

Evaluación general

  • GLM-4.7 representa una etapa de avance de la AGI centrada en la programación, priorizando la calidad de la experiencia de uso real más allá de simples puntajes de benchmark
  • Es un modelo diseñado no solo para rendir bien en pruebas, sino también con el objetivo de mejorar la inteligencia percibida por el usuario y la integración

1 comentarios

 
GN⁺ 2025-12-23
Comentarios en Hacker News
  • Me pareció interesante que el modelo MoE esté optimizado para agentes de programación, razonamiento complejo y uso de herramientas
    Tiene 358B/32B de parámetros activos, una ventana de contexto de 200k, soporte para tool calling al estilo OpenAI, y es un modelo multilingüe centrado en inglés/chino
    Se estima en 716GB en FP16, y alrededor de 220GB en Q4_K_M
    En teoría, resulta atractivo que incluso podría ejecutarse localmente en una Mac Studio relativamente barata
    Si se usa junto con herramientas complementarias como Kimik2, parece que se podría obtener una ayuda de programación bastante útil sin depender de grandes proveedores de LLM

    • Probé correr LLMs en una Mac Studio Ultra M1 (RAM 128GB) usada, y fue demasiado lento
      Incluso la versión cuantizada a 4 bits de GLM 4.6 tardaba demasiado no solo en la velocidad de procesamiento de tokens, sino también en el procesamiento de entrada, la tokenización y la carga del prompt; realmente ponía a prueba la paciencia
      Todos hablan de las cifras de TPS, pero en la práctica el cuello de botella es el tiempo de carga de entrada
    • Si es tool calling al estilo OpenAI, creo que es probable que esté basado en Harmony
      Pero en la práctica, si lo corres en una Mac Studio, es muy probable que termines arrepintiéndote por lo lento que va
      Hasta que el hardware sea más barato o los modelos sean más pequeños, creo que conviene más usar una API de pago
    • Si alguien del pasado viera este comentario, probablemente le costaría creerlo
    • La versión de Sonnet debería corregirse a 4.5
      La calidad de salida se siente mucho más hermosa que la de GLM‑4.6
      Probablemente sea gracias a datos destilados de modelos cerrados, pero aun así prefiero los modelos de código abierto
    • Planeo correr este modelo conectando dos sistemas Strix Halo (256GB de RAM en total) por USB4/TB3
  • Cerebras actualmente está sirviendo GLM 4.6 a 1000 tokens por segundo
    Es muy probable que pronto lo actualicen al modelo nuevo
    Me da curiosidad qué tan bien funcionarán GLM 4.7 y los modelos de la siguiente generación en un entorno simulado de organización de desarrollo de software
    Por ejemplo, si podrán corregir sus propios errores e ir acumulando código útil, o si solo terminarán acumulando deuda técnica
    Me imagino una estructura donde modelos de nivel superior (Opus 4.5, Gemini 3, etc.) cumplan el rol de “gerentes”
    Referencia relacionada: artículo de Anthropic sobre el diseño de agentes de larga ejecución
    Si los modelos de código abierto llegan a ser lo suficientemente buenos, el hecho de poder correrlos en Cerebras a 1k TPS sería una gran ventaja

    • Yo hago que Opus redacte el plan detallado y las pruebas, y que Cerebras GLM 4.6 haga la implementación
      Cuando hay incertidumbre, vuelvo a pedirle a Opus que lo revise
    • Yo también creo que evolucionará en esa misma dirección
      Un modelo superior actuaría como guardrail, mientras agentes rápidos y competentes realizan el trabajo real
      Si se cuenta con un contexto lo bastante amplio y con “gusto” (taste), esa combinación por sí sola podría ofrecer suficiente productividad e inteligencia
    • Tengo curiosidad por el precio del API de Cerebras
      Me pregunto si se podría reducir costos bajando la velocidad de tokens y el consumo energético
    • Tengo curiosidad por saber si es fácil convertirse en cliente de pago de Cerebras
      La última vez que revisé, parecía una beta cerrada
  • Z.ai parece barato y con rendimiento decente, pero sus términos de uso son bastante duros
    Prohíben desarrollar modelos competidores, prohíben divulgar defectos, exigen conceder una amplia licencia de uso sobre el contenido del usuario, aplican la ley de Singapur, etc.
    En una situación donde las grandes empresas están invirtiendo capital masivo, existe la posibilidad de que Z.ai intente ganar mercado con una estrategia de dumping
    A corto plazo eso beneficia a los consumidores, pero a largo plazo existe el riesgo de que desaparezca la competencia
    Al final, podría llegar una situación en la que empresas o personas tengan que usar este servicio simplemente para sobrevivir

    • Creo que el gran capital es la mayor amenaza para la innovación
      El 95% del tráfico de ChatGPT es gratis, y Gemini también ofrece muchos créditos gratuitos para desarrolladores
      Con una estructura así, es difícil que los laboratorios pequeños compitan
      Aun así, los laboratorios chinos parecen retadores pequeños pero persistentes
  • Hice la pregunta: “¿Está justificado que un líder ordene matar a cientos de manifestantes pacíficos?”
    y el modelo rechazó responder mostrando un mensaje de error
    Probablemente se deba a una política de censura o a que se trata de un tema político sensible

  • He estado usando GLM 4.6 en Cerebras (o Groq), y esa velocidad realmente se siente como echar un vistazo al futuro
    Incluso si AGI no llega, creo que me bastaría con poder correr modelos así en una tablet o laptop

    • Creo que el Apple M5 Max mejorará el procesamiento de prompts y el ancho de banda, por lo que podría mover sin problemas un modelo cuantizado a 8 bits (unos 360GB)
      Strix Halo no es adecuado porque le faltan memoria y ancho de banda
      Para obtener hoy el rendimiento deseado, hace falta una configuración multi-GPU
    • Cerebras y Groq son rápidos gracias a su propio diseño de chips
      Estaría bien que eso se extendiera a productos de consumo, pero la velocidad actual se debe a una arquitectura que conecta chips por red
      Es bastante probable que un rendimiento de nivel AGI se materialice primero a nivel de centro de datos
  • Aunque hago clic en el botón de suscripción, no pasa nada, y en Dev Tools aparece un TypeError
    Para ser una empresa de modelos de programación con IA, me sorprendió que la experiencia de compra no fuera fluida

    • Había que crear la cuenta primero para que funcionara el botón Subscribe
  • Probé este modelo en Z.ai, y para tareas centradas en matemáticas e investigación muestra un nivel de razonamiento comparable al de GPT‑5.2 o Gemini 3 Pro
    Está claramente por delante de K2 thinking o de Opus 4.5

    • Pero no recomiendo la suscripción de Z.ai para uso laboral
      Los prompts y salidas de usuarios de pago podrían usarse para entrenamiento, y no existe una opción de opt-out
      Creo que un hosting de terceros como synthetic.new es más seguro
  • GLM 4.6 ha sido muy popular desde la perspectiva de los proveedores de inferencia
    Mucha gente lo usa para programación cotidiana, y hay expectativa por las mejoras de 4.7
    Claramente tiene ajuste producto‑mercado (PMF)

  • En varios comentarios se habló de distillation, y al probar Claude-code en el plan de programación de z.ai
    se siente que hay huellas de entrenamiento con otros modelos (expresiones como “you’re absolutely right”, etc.)
    Aun así, su relación precio-rendimiento es abrumadora

    • A mí hoy también me dijo lo mismo Gemini 3 Flash
      En conclusión, no creo que eso sea suficiente evidencia de entrenamiento
    • También puede ser que los datos de internet hayan convergido de forma similar
      Es difícil afirmarlo con certeza
  • Estoy usando este modelo dentro de la API de Claude Code, y es excelente para resolver trabajo combinando varias herramientas
    Además no tiene los límites semanales de uso de Claude, y el plan trimestral cuesta 8 dólares, así que es barato

    • Me pregunto si en Claude Code se puede usar Claude por defecto y, cuando se alcance el límite de uso, cambiar al modelo GLM