5 puntos por GN⁺ 2 시간 전 | 1 comentarios | Compartir por WhatsApp
  • El modelo de pesos abiertos Kimi K2.6 de Moonshot AI ganó el AI Coding Contest Day 12 en el Word Gem Puzzle con 22 puntos de match y un récord de 7-1-0
  • MiMo V2-Pro de Xiaomi quedó en segundo lugar con 20 puntos, ChatGPT GPT-5.5 en tercero con 16, GLM 5.1 en cuarto con 15 y Claude Opus 4.7 en quinto con 12; los modelos de Anthropic, OpenAI, Google y xAI quedaron todos por debajo de los dos primeros
  • Word Gem Puzzle es un rompecabezas de letras tipo sliding tiles de 10×10 a 30×30, con penalización para palabras de menos de 7 letras y puntuación de longitud - 6 para palabras de 7 letras o más; cada par de modelos jugó 5 rondas por tamaño de cuadrícula con un límite de 10 segundos
  • Kimi K2.6 logró un acumulado de 77 puntos con un enfoque codicioso que elegía repetidamente movimientos que abrían palabras de valor positivo, mientras que MiMo V2-Pro quedó segundo con 43 puntos al enviar de una vez las palabras de 7 letras o más detectadas en la cuadrícula inicial sin deslizar realmente
  • Este resultado no significa que un solo rompecabezas invalide los benchmarks generales, pero sí muestra que Kimi K2.6, un modelo descargable, alcanza 54 puntos en el Artificial Analysis Intelligence Index, cerca de los 60 de GPT-5.5 y los 57 de Claude, lo que reduce la distancia competitiva

Estructura de la competencia y modelos participantes

  • GLM 5.1 de Zhipu AI terminó en cuarto lugar, y DeepSeek V4 apenas llegó al octavo
  • El código creado por Nemotron Super 3 de Nvidia incluía errores de sintaxis y no logró conectarse al servidor del juego, por lo que la competencia real se disputó entre 9 modelos
  • Kimi K2.6 es un modelo de pesos abiertos disponible públicamente de la startup china Moonshot AI, fundada en 2023, mientras que MiMo V2-Pro por ahora solo está disponible vía API
  • Xiaomi confirmó que pronto publicará los pesos del modelo más nuevo V2.5 Pro
  • Este resultado no se resume simplemente en “China venció a Occidente”, sino en la victoria de dos modelos específicos: Kimi K2.6 y MiMo V2-Pro

Reglas de Word Gem Puzzle

  • Word Gem Puzzle es un rompecabezas de letras tipo sliding tiles que se juega sobre una cuadrícula rectangular llena de fichas con letras y un espacio vacío
  • El tamaño de la cuadrícula puede ser 10×10, 15×15, 20×20, 25×25 o 30×30, y el bot puede empujar hacia el espacio vacío una ficha adyacente
  • El bot puede enviar en cualquier momento una palabra válida en inglés formada en línea recta horizontal o vertical
  • No se aceptan palabras en diagonal ni al revés
  • La puntuación está diseñada para premiar palabras largas y penalizar las cortas
    • Las palabras de menos de 7 letras pierden puntos
    • Una palabra de 5 letras resta 1 punto, y una de 3 letras resta 3 puntos
    • Las palabras de 7 letras o más valen longitud - 6, así que una palabra de 8 letras vale 2 puntos
  • La misma palabra solo puede enviarse una vez, y si otro bot la envió antes, ya no da puntos
  • Cada par de modelos jugó un total de 5 rondas, una por cada tamaño de cuadrícula, y cada ronda tenía un límite de 10 segundos en tiempo real
  • Las cuadrículas se generaban colocando palabras reales de diccionario en estilo crucigrama, rellenando luego los espacios restantes con letras según la frecuencia de fichas de Scrabble, y por último mezclando el espacio vacío
  • Cuanto más grande era el tablero, más fuerte era la mezcla, por lo que en 10×10 muchas palabras semilla seguían intactas, mientras que en 30×30 casi no quedaba ninguna

Comportamiento de cada modelo y factores de éxito o fracaso

  • Kimi K2.6

    • Kimi K2.6 ganó moviendo activamente las fichas y registró la puntuación total más alta del torneo con 77 puntos
    • Su estrategia era codiciosa: puntuaba cada movimiento posible según las nuevas palabras de valor positivo que abría, ejecutaba el mejor y repetía el proceso
    • Si no había ningún movimiento que abriera palabras positivas, elegía la primera dirección legal en orden alfabético
    • Este método a veces producía una ineficiencia tipo 2-cycle, rebotando el espacio vacío de ida y vuelta sin progreso real por los bordes
    • En cuadrículas pequeñas aún quedaban bastantes palabras semilla, así que esa ineficiencia le costaba; pero en 30×30 casi todas las palabras estaban rotas y había que reconstruirlas, por lo que la gran cantidad de deslizamientos finalmente se tradujo en puntos
  • MiMo V2-Pro

    • El código de deslizamiento de MiMo estaba en el repositorio, pero como nunca se activó la condición de “valor máximo mayor que 0”, en la práctica no deslizó ni una sola vez
    • Escaneaba la cuadrícula inicial en busca de palabras de 7 letras o más y luego enviaba todas las respuestas en un solo paquete TCP
    • Era una estrategia frágil que dependía por completo de que las palabras semilla siguieran presentes incluso después de la mezcla
    • En las cuadrículas donde esas palabras quedaban, anotaba rápido; donde no, no conseguía ningún punto
    • Su puntaje total final fue de 43 puntos, suficiente para el segundo lugar general
  • Claude Opus 4.7

    • Claude tampoco deslizó fichas
    • Según el log de movimientos, en el tablero de 25×25 todavía resistía porque la densidad de mezcla era manejable, pero colapsó en 30×30, donde ya hacía falta mover fichas de verdad
    • En un rompecabezas deslizante, no deslizar es una limitación clara
  • GPT-5.5

    • GPT-5.5 usó un enfoque más conservador, con unas 120 acciones de deslizamiento por ronda y un límite superior para evitar bucles infinitos de ida y vuelta
    • Mostró sus números más fuertes en las cuadrículas de 15×15 y 30×30
  • Grok Expert 4.2 y GLM 5.1

    • Grok no deslizó, pero logró puntajes relativamente decentes en tableros grandes
    • GLM fue el modelo que deslizó con más agresividad en todo el torneo, superando las 800 mil acciones de deslizamiento en total
    • GLM se frenaba con fuerza cada vez que desaparecían los movimientos positivos
  • DeepSeek V4

    • DeepSeek enviaba datos con formato incorrecto en cada ronda
    • No produjo ninguna salida útil, pero al menos tampoco empeoró su puntaje por jugar mal
  • Muse Spark

    • Muse enviaba todas las palabras que encontraba, sin importar su longitud
    • Las reglas de puntuación se diseñaron para penalizar palabras cortas y evitar estrategias de spam indiscriminado con palabras como “the”, “and” o “it”, por lo que todos los modelos competitivos filtraban el diccionario para quedarse con palabras de 7 letras o más
    • En la cuadrícula de 30×30, Muse encontraba cientos de palabras cortas válidas visibles en cualquier momento y las enviaba todas
    • Terminó con un puntaje acumulado de −15,309 puntos, perdió los 8 encuentros y no ganó ni una sola ronda
    • Si hubiera existido una versión de Muse que solo se conectara al servidor y no hiciera nada, habría obtenido 0 puntos, lo que la dejaría 15,309 puntos por encima del Muse real
    • La diferencia entre Muse y el octavo lugar fue mayor que la diferencia entre el octavo y el primero

La diferencia que marcó la cuadrícula de 30×30

  • La cuadrícula de 30×30 fue la que separó con más claridad a los modelos participantes
  • En tableros pequeños, la diferencia entre escáneres estáticos y deslizadores activos no era tan grande, pero en el tamaño máximo los modelos que solo buscaban palabras ya existentes dejaron de tener qué enviar
  • El bucle codicioso de Kimi tenía defectos, pero aun así seguía generando salida incluso cuando los escáneres estáticos ya se habían quedado sin palabras para enviar
  • MiMo y Kimi usaron estrategias casi opuestas, y aun así la diferencia final de puntuación fue de apenas 2 puntos
  • En la distancia entre el primer y segundo lugar influyó no solo la capacidad, sino también cierta variabilidad de semilla

Riesgos revelados en tareas estructuradas

  • La salida con formato incorrecto de DeepSeek es una señal sobre cómo maneja una especificación de protocolo desconocida bajo presión de tiempo
  • Muse encontraba y enviaba palabras válidas, pero no aplicaba el significado de “válido” incorporando también las reglas de puntuación
  • El fracaso de Muse apareció como una ejecución hasta el final de una interpretación parcial de la tarea, tras leerla solo en parte
  • Al desplegar modelos en tareas estructuradas con penalizaciones, una ejecución que no incorpore todas las reglas puede provocar pérdidas grandes

Límites y significado de la interpretación del resultado

  • Este sistema de puntuación recompensa el envío agresivo de palabras, y los modelos con ajustes de seguridad más fuertes podrían ser más conservadores frente a ese estilo de spam indiscriminado
  • En esos casos, el resultado puede reflejar no tanto una diferencia de capacidad pura, sino una desalineación entre el diseño de la tarea y el comportamiento alineado del modelo
  • Un solo desafío no invalida los benchmarks generales
  • Este rompecabezas pone a prueba la toma de decisiones en tiempo real y la capacidad de escribir código funcional que se conecte a un servidor TCP y juegue correctamente una partida nueva
  • No es una tarea para evaluar razonamiento de contexto largo ni generación de código basada en especificaciones en sentido amplio
  • Kimi K2.6 tiene 54 puntos en el Artificial Analysis Intelligence Index, GPT-5.5 tiene 60 y Claude 57
  • No es un empate total, pero sí un nivel cercano, y el hecho de que Kimi K2.6 sea un modelo que cualquiera puede descargar cambia la dinámica competitiva
  • Cuando un modelo que está a solo unos puntos de la frontera puede ejecutarse libremente en local, la situación competitiva ya no es la misma que hace un año
  • Este desafío es un dato más que sugiere que la brecha se ha reducido lo suficiente como para que resultados así puedan darse

1 comentarios

 
GN⁺ 2 시간 전
Opiniones en Hacker News
  • Parece que durante el próximo año van a seguir saliendo artículos así. Es porque no hay una forma objetiva de comparar modelos. Si dejas fuera números de bajo nivel como la velocidad de generación de tokens, la cantidad promedio de tokens de razonamiento, el número de parámetros o la cantidad de expertos activos, cada modelo tiene usos distintos, usuarios distintos y además no son deterministas
    Por eso van a seguir apareciendo benchmarks y declaraciones de que "este modelo venció a aquel", pero no existe el mejor modelo. Solo hay modelos que se ajustan a los criterios de cada quien, y al final es muy posible que terminemos en un mundo como Windows vs MacOS vs Linux, con cada quien quedándose en su propio bando

    • El punto clave no es cómo se comparan los modelos, sino que Kimi K2.6 y DeepSeek v4 Pro están casi al nivel de Opus, y eso en sí mismo es bastante importante
      Son open source y cuestan mucho menos por token que los modelos de EE. UU. Ahorita uso el plan cloud de Ollama de $20, y ahí sí puedo hacer trabajo real para proyectos paralelos que en el plan Claude Pro de $20 llegaban al límite con uno o dos prompts. Elegí Ollama solo porque su CLI es práctica, y además hay muchos proveedores que ofrecen estos modelos, así que tampoco quedas atado a malas condiciones o reglas de uso. Lo veo como una señal bastante mala para la economía estadounidense
    • Sí hay una forma objetiva de comparar modelos. Hay que usar muestreo repetido y análisis estadístico para decidir si los resultados se van a mantener o si solo fueron casualidad
      Si ajustas cada modelo para que rinda al máximo según las tareas esperadas, los rankings entre distintos benchmarks coinciden en un grado bastante alto: https://arxiv.org/abs/2507.05195
      Pero el autor de este texto no hizo ese procedimiento. Solo ejecutó cada modelo una vez en 13 problemas, y luego destacó el resultado del problema número 12. Ni siquiera pensó en el valor p, así que cuesta llamarlo p-hacking. La calidad de los modelos de lenguaje grandes varía mucho entre ejecuciones, así que correr cada modelo una sola vez se parece a lanzar dos monedas una vez, que una salga cara y la otra cruz, y luego querer decir cuál de las dos está más sesgada
    • Estoy de acuerdo en parte, pero sí se está trabajando en hacer comparables las métricas. Por ejemplo: https://ghzhang233.github.io/blog/2026/03/05/train-before-te...
      Aún no se adopta de forma amplia, y desde la perspectiva de cada actor involucrado quizá les convenga que siga así por un tiempo. En la práctica, se parece bastante al p-hacking
    • Mis casos de uso de modelos de lenguaje grandes y de entornos de ejecución tipo agente son bastante limitados, así que cuando sale un modelo nuevo o una herramienta nueva de ejecución, solo pruebo uno o dos de mis casos de uso, hago una evaluación subjetiva y luego ignoro la mayoría de los benchmarks
      Los blogs y los textos son negocios en sí mismos o generan tráfico para negocios alrededor de la tecnología, y muchos de estos artículos de evaluación existen para atraer atención. Eso no es malo en sí, pero sí mete mucho ruido
    • Al final creo que vamos a llegar a algo parecido a contratar personas. Puedes ver el currículum, o sea los benchmarks, pero no puedes estar seguro hasta haber trabajado con alguien seis meses
      La industria casi no sabe determinar si un ingeniero de software es objetivamente mejor que otro en casi ningún sentido. Entonces no entiendo por qué se piensa que sí se puede hacer un ranking objetivo de los modelos
  • Me da gusto que se esté avanzando hacia pruebas con calificación objetiva
    Nosotros hemos hecho eso a gran escala en https://gertlabs.com/rankings, y aunque parece que el autor corrió una muestra aislada, no sorprende que Kimi K2.6 rinda bien. Según nuestras pruebas, sobre todo en coding, Kimi está dentro del margen de incertidumbre estadística de MiMo V2.5 Pro, que es el mejor modelo open weights, y en uso de herramientas sale mucho mejor que DeepSeek V4 Pro. GPT 5.5 va cómodamente por delante, pero Kimi está al nivel de Opus 4.6 o incluso mejor. Eso sí, el problema de Kimi 2.6 es que está entre los modelos más lentos que hemos probado

    • Puede calificarse objetivamente, pero eso no demuestra la capacidad de programación de alguien. Esta prueba se parece más a medir qué modelo encontró casi por accidente la mejor estrategia contra otros bots
      Para que represente coding, habría que probar más de 100 acertijos de este tipo, a lo largo de todo el espectro de acertijos, para ver quién encuentra mejor estrategias apoyándose en un diccionario de inglés
    • En flujos de trabajo tipo agente, Qwen Flash y los modelos DeepSeek Flash parecen bastante buenos
      También coincide con un comentario de ayer aquí, donde decían que los modelos Flash hacen mejor el tool calling. Una combinación de GPT 5.5 para planear y un modelo Flash para implementar podría ser una ruta con muy buena relación costo-beneficio
    • En mi experiencia, los benchmarks significan bastante poco
      El rendimiento depende no solo del idioma y la tarea, sino también del prompt usado y del resultado esperado. En pruebas internas nos costó muchísimo decidir cuál era mejor entre GPT 5.5 y Opus 4.7. Tienen estilos distintos y al final casi es cuestión de preferencia. A veces le daba la victoria a uno, luego lo volvía a pensar y cambiaba de opinión. Al final prefiero un poco más Opus 4.7
    • ¿Las pruebas y los resultados son open source?
    • Me pregunto por qué no se puede ofrecer una métrica del tamaño de contexto para personas. Da la impresión de que debería existir suficiente ciencia como para construir una aproximación bastante buena
  • Según un estudio que leí hace unos días, al ritmo actual se espera que los modelos open source superen a los modelos en la nube en unos cuantos años
    Si miras hacia atrás a ChatGPT y Claude de hace unos años, incluso modelos pequeños de Qwen ya son casi equivalentes en coding a lo que hacían entonces los modelos basados en la nube. Si además consideras las leyes de escalado, pasar de 9B a 18B es aproximadamente un aumento de 40%, pero de 18B a 35B es como de 20%, así que parece que al menos habrá cambios de precio en los modelos cloud. Adobe antes también costaba $600 al mes, pero cuando la escala de distribución creció pasó a costar $20

    • Eso no tiene sentido; suena a extrapolar una tendencia mucho más allá de condiciones válidas
      La verdad simple es que los modelos cloud siempre pueden ser estrictamente superiores a los modelos abiertos. Los proveedores cloud también pueden correr esos mismos modelos abiertos. Además conservan economías de escala y eficiencia al operar grandes centros de datos llenos de hardware especializado. Como mínimo, pueden ofrecer modelos abiertos a un precio por token más bajo que la factura eléctrica de cualquiera. Encima de eso, tienen personal investigando los modelos y los sistemas alrededor, y también pueden pagar a los mejores ingenieros para mantener entornos de ejecución siempre por delante de las herramientas de moda en GitHub
    • Puede ser, pero me preocupa el tema del hardware
      Incluso si existe un modelo suficientemente bueno, ¿qué pasa si los proveedores de modelos cloud consiguen mejor el hardware para inferencia?
    • No sé a qué producto se refiere eso de que “Adobe costaba $600 al mes y luego pasó a $20 al escalar la distribución”. Nunca había oído de un producto de Adobe tan caro
    • ¿$600 al mes? ¿Se refiere a una licencia perpetua de pago único de $600? Nunca he oído de un plan de Adobe tan costoso
    • Si tienes el enlace del estudio que mencionas, estaría bien que lo compartieras
  • Kimi es realmente bueno
    He usado Sonnet, DeepSeek, ChatGPT, MiniMax, Qwen y otros en proyectos de compiladores y máquinas virtuales, y el plan Claude Pro está casi a un nivel inutilizable para trabajo serio de programación. Por eso lo uso en modo de chat del navegador para evitar que lea todo el proyecto innecesariamente, y Kimi lo uso junto con pi en el plan OpenCode Go. En proyectos de C+Python, Kimi superó consistentemente a Sonnet y nunca me preocupó que hiciera cosas que no le pedí. GLM se descarriló feo una o dos veces, pero Kimi no

    • Me da curiosidad por qué dices que “Claude Pro casi no sirve para trabajo serio de programación”. Parece totalmente opuesto a la valoración popular de que Claude Pro se usa sobre todo para programación seria
  • Es el resultado de una sola tarea, medido únicamente por el rendimiento de la solución
    Kimi K2.6 claramente es un modelo de tamaño de frontera, así que no es tan sorprendente que esté junto a modelos cerrados de frontera. Que sea abierto está bien, pero para alguien como yo, que solo tiene una GPU de consumo, eso no significa tanto

    • El valor del open source no está en que yo pueda correrlo localmente, sino en que alguien pueda ejecutarlo
      Aunque yo no tenga dinero para comprar el hardware que hace falta para correr un gran modelo open source, alguien sí lo tendrá, y aun cobrando la mitad de lo que cuestan los modelos cerrados puede sacar ganancia. La única razón por la que eso no se ve ahorita es que los proveedores líderes de tokens están subsidiando los costos de inferencia. En el momento en que empiecen el deterioro de calidad y la presión por monetizar, un mercado alternativo se vuelve posible. Sin modelos open source no hay una alternativa real. Incluso si quisieran cobrar solo el 80% del costo para desarrolladores, la existencia de modelos open source que no están muy por detrás ya funciona como fuerza de presión. No tienen foso defensivo
    • Claro que sí significa mucho. Por eso se vuelven posibles planes muchísimo más baratos que los planes de coding de Anthropic y OpenAI
      Para uso personal estoy usando planes de coding con GLM 5.1, Kimi K2.6, MiniMax M2.7 y Xiaomi MiMo V2.5 Pro, y la relación precio-rendimiento es muy buena
    • Sí importa muchísimo
      El deterioro de calidad al principio no se nota, pero ya estoy viendo que modelos de frontera que antes me gustaban se han debilitado mucho y hacen tonterías que antes no hacían. A medida que dependemos más de ellos, necesitamos modelos open weights que funcionen como una plataforma estable
    • El futuro va por aquí. Los modelos open weights que corren en H200 ofrecen muchas más oportunidades para crear productos e infraestructura real
      Para una RTX pequeña en casa siempre puedes destilar después. Pero los modelos pensados para hardware de consumo tienen dificultades para adoptarse ampliamente o para seguir siendo competitivos frente a los labs de frontera. Esta sí es una forma que puede competir, y va a requerir e impulsar una nueva generación de infraestructura cloud abierta para inferencia. Primero veremos productos tipo “desplegar con un botón” o “ajustar con un botón”, y después podrían aparecer productos mucho más avanzados que solo son posibles con open weights no encerrados detrás de una API. Ahora solo faltan modelos abiertos equivalentes a Nano Banana Pro / GPT Image 2 y Seedance 2.0. La batalla y el enfoque deberían estar en open weights para centros de datos
  • Me sorprendió ver el ranking, pero al leer la prueba se entiende. No parece tener mucho que ver con coding
    El ranking actual de la prueba completa tiene más sentido. Salvo por lo bien que le va a Gemini: https://aicc.rayonnant.ai

    • Si ves el detalle del ranking, Kimi K2.6 solo participó en los 5 desafíos más recientes. Antes de eso Claude dominaba, y si cuentas solo esos 5 recientes, Kimi va en primer lugar
    • El ranking por medallas de oro solo tiene sentido si todos los modelos participan en todas las pruebas
      DNP significa que no participó. Desde ese punto de vista, Kimi obtuvo más y mejores medallas que Claude
    • Es irónico que un sitio que maneja tantos modelos no sea responsive en móvil
    • El enlace que compartiste en realidad confirma la ventaja de Kimi
  • Es anecdótico, pero después de pasar los últimos meses usando solo Claude Code, me sorprendieron para bien las capacidades de Pi + Kimi K2.6. Si lo usas por OpenRouter, además va muchísimo más rápido y cuesta bastante menos

  • Por desgracia, Kimi no está nada cerca de GPT ni de Opus. Ojalá lo estuviera, pero no
    Estoy corriendo una evaluación donde el modelo tiene que generar código para crear modelos 3D, y está claro que le falta comprensión espacial y que comete muchos más errores de código antes de lograrlo. Puede que en algunos casos específicos sea mejor, y supongo que este post del blog es un ejemplo de eso

    • Un poco fuera de tema, pero en las últimas semanas he usado DeepSeek V4 Pro y en general está al nivel de Opus. La excepción es cuando se trata de Blender
      Ni siquiera es un tema visual. DeepSeek no es multimodal, pero por alguna razón Opus entiende mucho mejor la API de Blender. Parece que siempre hay áreas pequeñas donde los modelos cerrados de frontera funcionan un poco mejor
    • Siendo justos, no todo el mundo necesita modelos 3D
  • Esto parece menos que Kimi programe mejor que Claude, y más que Kimi encontró la estrategia correcta para un juego específico
    Aun así es interesante. El verdadero punto quizá sea que los modelos open weights ya se acercaron lo suficiente como para que esa diferencia sí importe

  • No conozco muy bien el campo de la IA, pero intentar entrenar un modelo para que lo haga todo para todo el mundo me parece una idea realmente tonta
    Requiere recursos enormes y provoca escasez extrema y distorsiones de mercado en todo lo que usan las empresas de IA: RAM, SSD, centros de datos, etc. En la vida real no contratas a un plomero esperando también jardinería, reparación de autos y arreglo de ropa. Por ejemplo, parece mucho mejor en uso de recursos poder descargar una app especializada en programación de shell, Python y C, o incluso tener tres apps de ese tipo comunicándose entre sí. Tal vez hasta podrían correr en una máquina común con 16 GB de RAM. No hace falta un modelo gigante que también pueda programar en Fortran, COBOL y Lisp. A los humanos nos ha ido bastante bien con la especialización, y ojalá se explore más esa vía de modelos de IA pequeños y enfocados, en vez de la ruta actual de “un solo modelo lo domina todo y solo puede correr en centros de datos del tamaño de un país”

    • Básicamente sí, pero hay casos en que no
      Desde GPT-3, la gente ha dicho que ningún modelo puede ser tan general y que por eso el ajuste fino es mejor, pero con cada generación esa afirmación se vuelve menos cierta