1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Con el mismo prompt de una sola toma para crear un juego de plataformas 3D en raw WebGL, Opus produjo un resultado más rápido y pulido, mientras que GLM-5.2 destacó por su menor costo y sus pesos abiertos
  • GLM-5.2 es un modelo de pesos abiertos con licencia MIT de Z.ai, con contexto de 1M de tokens y niveles de razonamiento High/Max, pero al ser solo de texto tiene limitaciones para la autoevaluación basada en imágenes
  • En la prueba real, GLM-5.2 costó $5.39 y Opus alrededor de $21.92; los tiempos de compilación fueron de 1 hora 10 minutos 40 segundos y 33 minutos 30 segundos, respectivamente, mostrando un intercambio claro entre velocidad y costo
  • El resultado de GLM-5.2 tuvo problemas básicos como texturas faltantes, pinchos que no funcionaban, ausencia de condición de victoria y una superposición de depuración visible; Opus fue más limpio, aunque todavía dejó una detección imprecisa en plataformas aéreas delgadas y un disparador de victoria demasiado lejano
  • Tanto en benchmarks como en evaluaciones externas, GLM-5.2 aparece como un fuerte modelo de pesos abiertos, pero Opus aventaja en muchas tareas de programación y agentes; la elección termina dependiendo de costo, apertura y juicio visual

Diferencias visibles en la misma tarea

  • GLM-5.2 es un caso reciente que muestra el potencial de los modelos abiertos, pero en la misma tarea práctica Claude Opus 4.8 entregó un resultado más rápido y preciso
  • La prueba consistió en dar a ambos modelos el mismo prompt de una sola toma y pedirles construir desde cero un juego de plataformas 3D para navegador en raw WebGL, sin motor de juego ni bibliotecas de renderizado 3D como Three.js
  • Ambos resultados y su código fuente están publicados
  • Ambos juegos usan assets gratuitos CC0 de Kenney Platformer Kit

Naturaleza y enfoque de GLM-5.2

  • GLM-5.2 es el modelo insignia más reciente de Z.ai y se ofrece como pesos abiertos con licencia MIT
    • Se puede descargar y ejecutar directamente o invocar mediante la API de Z.ai
    • Los pesos están publicados en Hugging Face y ModelScope, sin restricciones regionales
    • Puede servirse localmente con frameworks como vLLM, SGLang y Transformers
  • El modelo apunta a tareas de largo horizonte, como trabajos de agentes de programación de varias etapas durante periodos prolongados
    • Ofrece una ventana de contexto de 1M de tokens
    • Tiene niveles de razonamiento High y Max; en la prueba se usó High
  • La limitación decisiva es que es solo de texto
    • GLM-5.2 no puede leer imágenes
    • Los flujos de trabajo que requieren revisar directamente capturas de pantalla o diagramas necesitan un modelo multimodal como Claude Opus

Precio y costo de ejecución

  • Según la documentación de los proveedores, el precio por 1M de tokens de GLM-5.2 es menor que el de Opus
    • Claude Opus 4.8: entrada $5, lectura de caché $0.50, salida $25
    • GLM-5.2: entrada $1.4, lectura de caché $0.26, salida $4.4
  • En tokens de salida, GLM-5.2 cuesta menos de una quinta parte que Opus
  • En la prueba real de creación del juego, tiempo y costo se movieron en direcciones opuestas
Métrica GLM-5.2 (Pi/OpenRouter) Opus (Claude Code)
Tiempo total de compilación 1 hora 10 min 40 s 33 min 30 s
Tokens de salida 131,000 216,809
Uso máximo de contexto 16% de 1M 19% de 1M
Llamadas a herramientas 128 153
Costo $5.39 cobrados realmente aprox. $21.92 estimados
  • Opus terminó en cerca de la mitad del tiempo, mientras que GLM-5.2 completó el trabajo con un costo mucho menor

La prueba: un juego de plataformas 3D en raw WebGL

  • La tarea tenía una estructura más compleja que una simple landing page
    • Parser de modelos GLB
    • Matemáticas de matrices y vectores
    • Shaders GLSL
    • Animación esquelética con skinning
    • Bucle de timestep fijo
    • Manejo de colisiones
    • Cámara de seguimiento
  • Ambos modelos recibieron el mismo prompt, los mismos assets y un solo intento sin pistas
  • Las condiciones de finalización eran las siguientes
    • Motor 3D y renderer basados en raw WebGL
    • Cargador para el personaje 3D y los modelos del mundo proporcionados
    • Movimiento y salto del personaje con gravedad y colisiones
    • Cámara de seguimiento y controles de teclado
    • Juego completo ejecutable en el navegador con un solo comando
  • Ambos modelos implementaron en gran medida por cuenta propia un parser binario de GLB, matemáticas de matrices y cuaterniones, un renderer WebGL2, shaders GLSL para skinning y colisiones AABB con substeps
  • También están publicados los registros de compilación

Resultado al jugar y bugs restantes

  • Ambos juegos tienen forma de juego de plataformas 3D en tercera persona
    • Movimiento con WASD o flechas
    • Space para saltar
    • Shift para correr
    • Arrastrar el mouse para rotar la cámara
    • Rueda para hacer zoom
    • Objetivo de recoger monedas, evitar pinchos y llegar a la bandera
    • Si se cae fuera del mapa, vuelve al punto de inicio
  • Resultado de GLM-5.2

    • El juego de GLM-5.2 mostró en general un acabado tosco
    • Faltaban algunos materiales del personaje y había un problema donde el personaje caminaba girado en dirección opuesta a su movimiento
    • Las trampas de pinchos no mataban ni reiniciaban al personaje, y al llegar a la bandera no se activaba la condición de victoria
    • La cabeza desaparecía cuando la cámara se movía y además quedaba visible una superposición de depuración
    • La parte donde el personaje rebota hasta la siguiente plataforma al pisar un resorte sí funcionaba bien
    • Los modelos de Kenney hacen referencia a una paleta de colores compartida en un archivo separado, pero el renderer de GLM-5.2 no cargó ese archivo, así que fue reemplazada por colores planos
  • Resultado de Opus

    • El juego de Opus fue más limpio y funcionó mejor
    • La cámara y el controlador funcionaban, y también la lógica donde los pinchos matan al jugador
    • Las texturas se aplicaban correctamente, la animación era fluida y al llegar a la bandera sí se podía ganar
    • Los bugs restantes se parecían más a casos borde que a fallas de funcionalidad básica
    • El personaje podía quedarse un momento en el aire junto al borde de una plataforma, resultado de un tiempo de gracia de coyote-time demasiado amplio que permitía saltar incluso justo después de salir del borde
    • La condición de victoria se activaba incluso estando todavía bastante lejos de la bandera

La diferencia multimodal en la autoevaluación

  • A ambos modelos se les indicó verificar el resultado antes de terminar la tarea
  • Opus, al ser multimodal, renderizó el juego y luego inspeccionó directamente las capturas de pantalla
    • Detectó los indicadores de depuración que aún quedaban en pantalla, los eliminó y luego cerró el trabajo
    • En la escena final verificó bloques, escaleras, monedas, gemas, pinchos, bandera, personaje, HUD de puntaje, iluminación y geometría
  • GLM-5.2 no pudo ver directamente las capturas porque no puede leer imágenes
    • En su lugar usó una vía indirecta: leer datos de píxeles en bruto y comprobar si los colores coincidían aproximadamente con lo esperado
    • En la imagen guardada revisó condiciones de color como grass green, dirt brown, coin gold, flag red, character bluish, half-Lambert lit, no black
  • Ese método dejó pasar problemas reales de la pantalla
    • El personaje se veía gris y faltaban texturas
    • La superposición de depuración seguía presente en pantalla
  • En tareas donde el resultado visual importa, la verificación multimodal capaz de entender imágenes se traduce en una diferencia real de calidad

Posición vista en benchmarks

  • En los benchmarks de la model card de Z.ai, GLM-5.2 quedó en muchos casos justo detrás de los mejores modelos cerrados, e incluso los superó en algunos benchmarks de razonamiento
  • Las cifras principales fueron las siguientes
    • HLE: GLM-5.2 40.5, Opus 4.8 49.8
    • HLE with tools: GLM-5.2 54.7, Opus 4.8 57.9
    • AIME 2026: GLM-5.2 99.2, Opus 4.8 95.7
    • IMOAnswerBench: GLM-5.2 91.0, Opus 4.8 83.5
    • SWE-bench Pro: GLM-5.2 62.1, Opus 4.8 69.2
    • NL2Repo: GLM-5.2 48.9, Opus 4.8 69.7
    • ProgramBench: GLM-5.2 63.7, Opus 4.8 71.9
    • SWE-Marathon: GLM-5.2 13.0, Opus 4.8 26.0
    • MCP-Atlas public: GLM-5.2 76.8, Opus 4.8 77.8
    • Tool-Decathlon: GLM-5.2 48.2, Opus 4.8 59.9
  • La ejecución independiente de ArtificialAnalysis también evalúa a GLM-5.2 como un fuerte modelo de pesos abiertos
    • Puntaje de 51 en el Intelligence Index v4.1
    • Por encima de MiniMax-M3 44, DeepSeek V4 Pro 44 y Kimi K2.6 43
    • TerminalBench v2.1 marca 78%, usando un harness distinto al 81 o 82.7 de la model card
    • Los tokens de salida por tarea rondan los 43k, más que los 26k de GLM-5.1
  • La tendencia de los benchmarks se parece a la de la prueba práctica
    • GLM-5.2 está entre los líderes de pesos abiertos y conserva cierta competitividad en razonamiento
    • Opus va por delante en muchos benchmarks de programación y agentes

Reacciones externas

  • Simon Willison calificó a GLM-5.2 como “probablemente el LLM de pesos abiertos solo de texto más potente”
    • En su prueba de SVG, GLM-5.2 generó un pelícano en bicicleta completamente animado y sin partes rotas
    • La prueba del zarigüeya en scooter salió peor que con GLM-5.1, así que el rendimiento no fue uniforme
  • Artificial Analysis evaluó a GLM-5.2 como el modelo de pesos abiertos líder en su propio Intelligence Index
    • Considera que, en ese nivel, es el modelo más barato y lo ubica en la frontera de inteligencia por costo
    • Aun así, lo marca como un modelo que consume muchos tokens, con unos 43k de salida por tarea
  • Nathan Lambert señaló que, según la tabla de LMArena, GLM-5.2 incluso podría verse como un mejor agente que Gemini, y que como modelo abierto con licencia MIT es un “serious accomplishment”
    • Destacó que los mejores modelos de EE. UU. siguen por delante en general, pero subrayó que los laboratorios chinos están alcanzando puntajes altos con menos cómputo

Qué modelo elegir

  • GLM-5.2 es un modelo de pesos abiertos con rendimiento fuerte por una fracción del precio de Opus
    • Es adecuado cuando importan el costo y la apertura, y el trabajo se centra sobre todo en texto y lógica
    • Los pesos descargables no pueden retirarse ni restringirse de repente como ocurre con los modelos cerrados
  • Opus fue más rápido, más limpio y más preciso en la prueba
    • Puede ver y verificar directamente resultados visuales
    • Es más adecuado para trabajos donde importan la precisión, el pulido y el juicio visual, y donde se puede asumir el costo
  • GLM-5.2 se parece menos a un reemplazo principal de Opus y más a un potente modelo complementario, barato y siempre accesible

1 comentarios

 
GN⁺ 4 시간 전
Comentarios de Hacker News
  • De verdad no entiendo por qué hay tanto alboroto con el prompting de un solo disparo
    Por definición, un solo prompt no puede contener la complejidad de un proyecto de software. Al final, el modelo solo entrega un resultado haciendo varias suposiciones a partir del código existente en su corpus de entrenamiento
    Más bien me gustaría ver un agente de codificación que siga con precisión las etapas de un archivo de planificación, respetando las barreras definidas por humanos en especificaciones revisadas y las convenciones de código. También habría que verificar si, para una meta definida por humanos, el bucle del agente no se sale de esas barreras y se mantiene firme hasta completar el objetivo
    Además, una métrica mucho más valiosa es su capacidad para entender el contexto del caso de uso que se quiere construir, encontrar bugs o posibles mejoras de rendimiento en el código existente y proponer refactorizaciones

    • Este experimento es interesante en el sentido de ver si el modelo puede producir un resultado que subjetivamente se evalúe como bueno incluso con una especificación algo ambigua y abierta
      Más que un benchmark para ver si la salida coincide con la entrada, se parece más a ver si el resultado es internamente consistente. En un juego, por ejemplo, si termina al llegar a la meta, si mueres al tocar pinchos o si al moverte aparecen casos límite raros
      Aun así, creo que debieron haber usado el mismo entorno de ejecución y repetir el experimento varias veces para ver también la dispersión de resultados
    • El problema no es el one-shot en sí, sino la situación greenfield de empezar desde un proyecto vacío
      Antes me burlaba de los ingenieros que probaban un framework desde un proyecto vacío siguiendo el README y luego decían “este framework es lo máximo para nuestra app de producción de 10 años”. La mentalidad greenfield es la solución para todos los problemas y el problema de todas las soluciones
      La capacidad one-shot también es una métrica autorreferencial importante, así que hay que medirla, pero debería hacerse sobre una base de código grande ya establecida
    • Nadie que esté haciendo trabajo serio ahora mismo intenta hacerlo de un solo disparo, pero aun así sigue siendo una métrica importante
      La razón por la que Claude Code y Opus llamaron tanto la atención es que el entorno de ejecución mejoró y ahora pueden corregir por sí mismos muchos errores sin intervención del usuario. A largo plazo, creo que las mayores mejoras vendrán de la autonomía de varias horas y la capacidad de autocorrección
    • Vale la pena probar el one-shot, pero solo tiene sentido cuando es un prompt muy grande, como “construye esto según esta especificación”
      No creo que generar millones de tokens a partir de unas cuantas fichas de entrada transmita gran cosa
    • Si un modelo puede recibir instrucciones cada vez más complejas y satisfacer los requisitos sin intervención humana, es bastante fácil juzgar su rendimiento general
      Para evaluar un mejor modelo, basta con agregar más requisitos a la tarea. Aunque no sea un caso de uso realista, me parece un método útil
      Claro, si un ingeniero de software lo pilotea, el modelo puede producir resultados mucho mejores. Aunque dependiendo del ingeniero, también podrían ser peores
  • Una ejecución única de one-shot del tipo “lo enfrenté cara a cara con el mismo prompt one-shot contra Claude Opus 4.8: crear desde cero un juego de plataformas 3D en WebGL puro” no es un benchmark ni representa un uso realista
    La mayoría del uso de agentes es colaborativo, así que habría que probar cosas como la confiabilidad al delegarle una tarea, por ejemplo si la completa sin inventarse resultados de pruebas, y también qué tan controlable es, es decir, si sigue mis instrucciones o hace lo que se le ocurre

    • Soy el autor y estoy totalmente de acuerdo. Esta vez no fue un benchmark, sino una prueba de sensaciones, y los benchmarks reales los listé aparte
      Esta prueba muestra qué pueden hacer ambos modelos cuando se les da una tarea one-shot larga y técnicamente difícil
      Creo que valdría mucho la pena probar en el futuro un formato centrado en colaboración, delegación de tareas, finalización, desarrollo guiado por pruebas y controlabilidad
    • En cambio, justo acabo de conectar GPT 5.5 a mi agente de Raspberry Pi y lo dejé trabajando toda la noche en una tarea de largo plazo claramente definida. Lleva unas 10 horas corriendo y casi termina. Ese tipo de caso de uso también es válido
      Pensándolo bien, la mayoría del trabajo con agentes que hago son subagentes que se ejecutan con sus propios prompts desde la sesión principal. Eso también puede verse como una versión corta de trabajo totalmente autónomo
    • Por eso hay que mezclar benchmarks formales, análisis largos comparativos lado a lado y evaluaciones de varias personas de confianza
      El artículo también hablaba de eso, y esto en sí no estaba pensado como un benchmark formal. Benchmarks formales ya hay bastantes
  • Como Anthropic no dejaba de arrojar 529 Overloaded, ayer me registré en GLM 5.2 para probarlo
    Me gustó, pero una sola sesión con 2 prompts en xhigh de GLM 5.2 se comió el 22% del uso del plan light en una ventana de reinicio de 5 horas
    El resultado me dejó satisfecho y la calidad también estuvo bien. Como quiero usar ambos, estaría bueno que hubiera un plan de suscripción unificado que permitiera usar Anthropic y GLM juntos

  • La impresión que me dejó GLM 5.2 tras usarlo en algunos proyectos es que tarda bastante en empezar a escribir código y no es para nada un modelo rápido
    Se desvía mucho durante la fase de exploración y planificación, aunque luego se corrige, y no es fácil de pilotear. Alucina cosas que después ni siquiera va a seguir. Aun así, la calidad de salida es bastante buena
    Por ejemplo, estaba optimizando el renderizado en una base de código Swift+Zig y me atasqué en 5 mil elementos de datos. GLM 5.2 pasó 20 minutos creando un benchmark y extrayendo datos, y como me desesperé, le bloqueé el acceso a herramientas fuera del editor y me fui. Cuando volví unos 30 minutos después, ya había optimizado 3 cuellos de botella basándose en el benchmark que había creado y en algunas “conclusiones”, y también dijo que necesitaba más datos porque no podía verificar sus sospechas
    La implementación funcionaba bien y era idiomática y no intrusiva. Incluso diría que fue más idiomática que lo que produjo GPT 5.5 en el mismo repositorio. Me gustaría usarlo más, pero GPT normalmente completa la misma solicitud 5 veces más rápido
    Gracias a GLM 5.2 terminé preparando una configuración para ejecutar varios en paralelo dentro de contenedores aislados y workspaces de JJ

    • Hace poco lo usé en una tarea de baja prioridad; otros modelos no podían resolverla y no quería gastar Opus 4.8 en eso
      Era un problema para interceptar el clic izquierdo en la barra de menús de macOS y hacer que Ctrl+clic o clic derecho abrieran el menú como si fueran clic izquierdo, pero solo de manera condicional
      A mitad de la sesión de resolución del problema cambié el modelo a GLM-5.2; ni siquiera volví a meter el prompt, lo cambié a media inferencia, y unos minutos después el problema quedó arreglado. Lo usé dentro de la asignación por suscripción de OpenCode Go, y un problema así podía haberse comido toda la cuota de uso de Opus de la ventana actual de 5 horas o incluso el límite semanal
    • También me gusta que se pueda ver toda la traza de razonamiento
      Puedes detenerlo y corregirlo cuando ves que el modelo se está saliendo de rumbo o descubre algo que no te dijo. O también puedes aprender por qué tomó esas decisiones, así que luego te quedan menos dudas
  • Coincide bastante con mi experiencia. Lo estoy usando en Pi y es inteligente, además de que la salida es buena, pero el proceso para llegar ahí no es eficiente

    • El precio también es un problema. Quería probarlo, pero si apenas es un 30% más barato que Opus, con estos problemas como están no creo que lo elegiría
  • Dice: “GLM-5.2 no puede leer imágenes, así que ahí surgió el problema. No es multimodal. Entonces, en vez de ver la captura de pantalla, usé el truco de escribir un script que leyera los datos brutos de píxeles y verificara si los colores salían más o menos como se esperaba”, pero un mejor método sería usar https://github.com/openbmb/MiniCPM-V

    • Exacto. Si le das al LLM de texto acceso a un agente solo visual, ese problema se resuelve
      Si de verdad quieres, incluso podrías hacer que llame a Opus para las imágenes, y aun así probablemente ahorrarías costos
  • Me suscribí a Ollama para experimentar con modelos open source
    Durante los últimos 3 meses solo he estado en modo de probar y experimentar, pero GLM es el primer modelo que uso a diario junto con Claude para trabajo real de programación. Me ha gustado bastante, al punto de agotar todos los días mi límite de uso de Ollama

    • Interesante. Me da curiosidad qué tipo de tareas estás haciendo con GLM y qué otros modelos te han parecido útiles a través de Ollama
  • GLM consume menos tokens y también hace menos llamadas a herramientas, pero tarda más del doble en completar
    Si ese tiempo no se va en el comportamiento del modelo en sí, me pregunto entonces en qué se está yendo
    ¿Será que cada llamada de herramienta es más compleja y por eso tarda más, o que el modelo hace más cómputo por token y por eso tiene menos tokens por segundo?

    • Opus y GPT 5.5 son muy buenos ajustando la intensidad de pensamiento y razonamiento según la tarea, y siento que los modelos de pesos abiertos todavía están algo por detrás en eso
      Además, algunos modelos de pesos abiertos como GLM 5.2 o DeepSeek v4 Pro generan tokens bastante más lento, lo que afecta la latencia percibida. Aun así, es difícil llamar lento a GLM 5.2; por ejemplo, ahora mismo dentro de Notion es uno de los modelos más rápidos
    • Lo más probable es que influya sobre todo el centro de datos donde corre el modelo
      Otra posibilidad es que Opus use algo como Mixture of Experts, así que la parte del modelo que se carga en memoria a la vez podría ser menor que en GLM
    • Podría ser por la infraestructura. Da la impresión de que Anthropic está mucho mejor preparado
  • GLM 5.2 tiene un problema importante que limita su éxito de forma significativa: el valor de la suscripción para programación
    Si solo miras el precio del API, GLM 5.2 le gana a la competencia. Pero usar cobro por API para trabajo de programación es algo más propio de grandes empresas, y para ellas los productos por suscripción fuertemente subsidiados están desapareciendo cada vez más
    Al mismo tiempo, esas empresas no van a dejar que sus empleados usen APIs chinas
    Para individuos y equipos pequeños, la suscripción de programación de Z.ai es peor que la de Anthropic y OpenAI. Tal vez puedas conseguir un nivel de uso parecido al de Claude, pero Codex claramente da mucho más uso por el dinero pagado
    Se puede debatir cuánto se ha acercado Z.ai a GPT5.5 y Opus 4.8, pero en un mundo donde todo cuesta lo mismo y se puede elegir libremente, no escogería GLM
    Así que la pregunta importante es cuánto mejorarán los productos de Z.ai en GLM 5.3 o 6, y cuánto van a restringir OpenAI y Anthropic sus ofertas actuales en el futuro cercano

    • Visto desde fuera de Estados Unidos, se ve distinto. A las empresas europeas les quitaron Fable por los controles de exportación de EE. UU., y antes de eso Anthropic anunció que conservaría los datos durante 30 días
      Para ese tipo de empresas, construir infraestructura alrededor de una IA que no te vayan a quitar de un día para otro tiene un valor inmediato. Otros países fuera de Europa son más sensibles al precio y tampoco tienen el mismo miedo a relacionarse con empresas chinas
    • Quienes usan cobro por API no son solo las grandes empresas, también incluye a quienes usan entornos de ejecución de terceros como OpenCode
      Al mismo tiempo, si “esas empresas no van a dejar que sus empleados usen APIs chinas”, entonces me pregunto a quién apunta Amazon Bedrock al ofrecer GLM
      Los particulares probablemente elegirán proveedores estadounidenses más baratos como DeepInfra. La entrada en caché de GLM cuesta $0.18 por millón de tokens y Opus $0.50. Fireworks AI también es una opción
    • Yo veo las suscripciones personales como gancho que opera con pérdidas. El dinero se gana con los contratos empresariales de tokens
      Empleados y estudiantes que se acostumbran a programar usando miles de dólares en tokens con planes de 20 o 100 dólares van a empujar ese gasto dentro de las empresas
      La aparición de un modelo chino competitivo no va a sustituir ese gasto empresarial, pero los modelos abiertos alojados en EE. UU. o la UE sí podrían hacerlo
      La existencia de GLM 5.2 pone un techo al precio que OpenAI y Anthropic pueden cobrar por el acceso al API
    • Es un punto importante. Creo que el modelo de precios por API podría desaparecer eventualmente, como desapareció pagar por MMS. Es un modelo anticuado
      Mi suposición es que la mayoría del trabajo se está haciendo en planes de programación
      Aun así, fastidia que los planes sean demasiado restrictivos más allá de los límites de uso. Lo entiendo, pero es incómodo. En la práctica, solo Anthropic y quizá Google son realmente estrictos
      Anthropic asustó a la gente con una política según la cual, si consideran que tu uso no cumple los términos del servicio, después podrían cobrarte a tarifa de API. Tal vez sea una preocupación infundada, pero da la impresión de que sí podrían hacerlo, y eso hace que prefiera evitarlo
    • Tengo cuenta y saldo en OpenRouter, así que estuve probando GLM 5.2 y luego quise revisar la suscripción de z.ai esperando mejores condiciones
      Pero su infraestructura estaba claramente sobrecargada y el 100% de las solicitudes de chat a 5.2 terminaban en timeout. Cuando la infraestructura se ponga al nivel del rendimiento del modelo, lo volveré a intentar y recién ahí podré juzgar si la suscripción vale la pena
  • Hoy me sorprendió que GLM-5.2 fuera mucho mejor que GPT-5.5 en sentido estético y trabajo de UI
    Por ahora voy a mantener mi configuración de Claude/Codex a través de Conductor, pero por este modelo terminé configurando OpenCode y descargando la app de escritorio para hacer ahí la mayor parte de mi trabajo de hoy

  • Cuando veo frases como “GLM-5.2 costó mucho menos. Opus terminó en la mitad del tiempo y entregó un juego más limpio”, enseguida se siente ese estilo de escritura de LLM
    Parece que todos los modelos han convergido hacia ese estilo de redacción, y aunque mejoren en rendimiento, esa parte no cambia mucho

    • Buen feedback. Ese estilo de escritura de LLM es justamente un problema que estamos viviendo ahora e intentando mejorar

La industria de la redacción técnica está sufriendo un golpe fuerte en este momento. Las empresas exigen más trabajo en menos tiempo y la calidad ha bajado muchísimo, así que cada vez hay menos tiempo en el día a día para pulir la calidad de las frases
Nosotros estamos trabajando justo en la primera línea de este cambio, así que somos de los más afectados, pero al mismo tiempo resulta estimulante y muy frustrante poder experimentar antes que nadie con estos cambios

  • Parece que la gente de verdad ya está empezando a aceptar mucho el estilo de escritura de los LLM
  • Sí. De verdad es muy molesto. Como la mitad de lo que se escribe ahora ya suena con la misma “voz”