- El modelo de pesos abiertos Kimi K2.6 de Moonshot AI ganó el AI Coding Contest Day 12 en el Word Gem Puzzle con 22 puntos de match y un récord de 7-1-0
- MiMo V2-Pro de Xiaomi quedó en segundo lugar con 20 puntos, ChatGPT GPT-5.5 en tercero con 16, GLM 5.1 en cuarto con 15 y Claude Opus 4.7 en quinto con 12; los modelos de Anthropic, OpenAI, Google y xAI quedaron todos por debajo de los dos primeros
- Word Gem Puzzle es un rompecabezas de letras tipo sliding tiles de 10×10 a 30×30, con penalización para palabras de menos de 7 letras y puntuación de
longitud - 6para palabras de 7 letras o más; cada par de modelos jugó 5 rondas por tamaño de cuadrícula con un límite de 10 segundos - Kimi K2.6 logró un acumulado de 77 puntos con un enfoque codicioso que elegía repetidamente movimientos que abrían palabras de valor positivo, mientras que MiMo V2-Pro quedó segundo con 43 puntos al enviar de una vez las palabras de 7 letras o más detectadas en la cuadrícula inicial sin deslizar realmente
- Este resultado no significa que un solo rompecabezas invalide los benchmarks generales, pero sí muestra que Kimi K2.6, un modelo descargable, alcanza 54 puntos en el Artificial Analysis Intelligence Index, cerca de los 60 de GPT-5.5 y los 57 de Claude, lo que reduce la distancia competitiva
Estructura de la competencia y modelos participantes
- GLM 5.1 de Zhipu AI terminó en cuarto lugar, y DeepSeek V4 apenas llegó al octavo
- El código creado por Nemotron Super 3 de Nvidia incluía errores de sintaxis y no logró conectarse al servidor del juego, por lo que la competencia real se disputó entre 9 modelos
- Kimi K2.6 es un modelo de pesos abiertos disponible públicamente de la startup china Moonshot AI, fundada en 2023, mientras que MiMo V2-Pro por ahora solo está disponible vía API
- Xiaomi confirmó que pronto publicará los pesos del modelo más nuevo V2.5 Pro
- Este resultado no se resume simplemente en “China venció a Occidente”, sino en la victoria de dos modelos específicos: Kimi K2.6 y MiMo V2-Pro
Reglas de Word Gem Puzzle
- Word Gem Puzzle es un rompecabezas de letras tipo sliding tiles que se juega sobre una cuadrícula rectangular llena de fichas con letras y un espacio vacío
- El tamaño de la cuadrícula puede ser 10×10, 15×15, 20×20, 25×25 o 30×30, y el bot puede empujar hacia el espacio vacío una ficha adyacente
- El bot puede enviar en cualquier momento una palabra válida en inglés formada en línea recta horizontal o vertical
- No se aceptan palabras en diagonal ni al revés
- La puntuación está diseñada para premiar palabras largas y penalizar las cortas
- Las palabras de menos de 7 letras pierden puntos
- Una palabra de 5 letras resta 1 punto, y una de 3 letras resta 3 puntos
- Las palabras de 7 letras o más valen
longitud - 6, así que una palabra de 8 letras vale 2 puntos
- La misma palabra solo puede enviarse una vez, y si otro bot la envió antes, ya no da puntos
- Cada par de modelos jugó un total de 5 rondas, una por cada tamaño de cuadrícula, y cada ronda tenía un límite de 10 segundos en tiempo real
- Las cuadrículas se generaban colocando palabras reales de diccionario en estilo crucigrama, rellenando luego los espacios restantes con letras según la frecuencia de fichas de Scrabble, y por último mezclando el espacio vacío
- Cuanto más grande era el tablero, más fuerte era la mezcla, por lo que en 10×10 muchas palabras semilla seguían intactas, mientras que en 30×30 casi no quedaba ninguna
Comportamiento de cada modelo y factores de éxito o fracaso
-
Kimi K2.6
- Kimi K2.6 ganó moviendo activamente las fichas y registró la puntuación total más alta del torneo con 77 puntos
- Su estrategia era codiciosa: puntuaba cada movimiento posible según las nuevas palabras de valor positivo que abría, ejecutaba el mejor y repetía el proceso
- Si no había ningún movimiento que abriera palabras positivas, elegía la primera dirección legal en orden alfabético
- Este método a veces producía una ineficiencia tipo 2-cycle, rebotando el espacio vacío de ida y vuelta sin progreso real por los bordes
- En cuadrículas pequeñas aún quedaban bastantes palabras semilla, así que esa ineficiencia le costaba; pero en 30×30 casi todas las palabras estaban rotas y había que reconstruirlas, por lo que la gran cantidad de deslizamientos finalmente se tradujo en puntos
-
MiMo V2-Pro
- El código de deslizamiento de MiMo estaba en el repositorio, pero como nunca se activó la condición de “valor máximo mayor que 0”, en la práctica no deslizó ni una sola vez
- Escaneaba la cuadrícula inicial en busca de palabras de 7 letras o más y luego enviaba todas las respuestas en un solo paquete TCP
- Era una estrategia frágil que dependía por completo de que las palabras semilla siguieran presentes incluso después de la mezcla
- En las cuadrículas donde esas palabras quedaban, anotaba rápido; donde no, no conseguía ningún punto
- Su puntaje total final fue de 43 puntos, suficiente para el segundo lugar general
-
Claude Opus 4.7
- Claude tampoco deslizó fichas
- Según el log de movimientos, en el tablero de 25×25 todavía resistía porque la densidad de mezcla era manejable, pero colapsó en 30×30, donde ya hacía falta mover fichas de verdad
- En un rompecabezas deslizante, no deslizar es una limitación clara
-
GPT-5.5
- GPT-5.5 usó un enfoque más conservador, con unas 120 acciones de deslizamiento por ronda y un límite superior para evitar bucles infinitos de ida y vuelta
- Mostró sus números más fuertes en las cuadrículas de 15×15 y 30×30
-
Grok Expert 4.2 y GLM 5.1
- Grok no deslizó, pero logró puntajes relativamente decentes en tableros grandes
- GLM fue el modelo que deslizó con más agresividad en todo el torneo, superando las 800 mil acciones de deslizamiento en total
- GLM se frenaba con fuerza cada vez que desaparecían los movimientos positivos
-
DeepSeek V4
- DeepSeek enviaba datos con formato incorrecto en cada ronda
- No produjo ninguna salida útil, pero al menos tampoco empeoró su puntaje por jugar mal
-
Muse Spark
- Muse enviaba todas las palabras que encontraba, sin importar su longitud
- Las reglas de puntuación se diseñaron para penalizar palabras cortas y evitar estrategias de spam indiscriminado con palabras como “the”, “and” o “it”, por lo que todos los modelos competitivos filtraban el diccionario para quedarse con palabras de 7 letras o más
- En la cuadrícula de 30×30, Muse encontraba cientos de palabras cortas válidas visibles en cualquier momento y las enviaba todas
- Terminó con un puntaje acumulado de −15,309 puntos, perdió los 8 encuentros y no ganó ni una sola ronda
- Si hubiera existido una versión de Muse que solo se conectara al servidor y no hiciera nada, habría obtenido 0 puntos, lo que la dejaría 15,309 puntos por encima del Muse real
- La diferencia entre Muse y el octavo lugar fue mayor que la diferencia entre el octavo y el primero
La diferencia que marcó la cuadrícula de 30×30
- La cuadrícula de 30×30 fue la que separó con más claridad a los modelos participantes
- En tableros pequeños, la diferencia entre escáneres estáticos y deslizadores activos no era tan grande, pero en el tamaño máximo los modelos que solo buscaban palabras ya existentes dejaron de tener qué enviar
- El bucle codicioso de Kimi tenía defectos, pero aun así seguía generando salida incluso cuando los escáneres estáticos ya se habían quedado sin palabras para enviar
- MiMo y Kimi usaron estrategias casi opuestas, y aun así la diferencia final de puntuación fue de apenas 2 puntos
- En la distancia entre el primer y segundo lugar influyó no solo la capacidad, sino también cierta variabilidad de semilla
Riesgos revelados en tareas estructuradas
- La salida con formato incorrecto de DeepSeek es una señal sobre cómo maneja una especificación de protocolo desconocida bajo presión de tiempo
- Muse encontraba y enviaba palabras válidas, pero no aplicaba el significado de “válido” incorporando también las reglas de puntuación
- El fracaso de Muse apareció como una ejecución hasta el final de una interpretación parcial de la tarea, tras leerla solo en parte
- Al desplegar modelos en tareas estructuradas con penalizaciones, una ejecución que no incorpore todas las reglas puede provocar pérdidas grandes
Límites y significado de la interpretación del resultado
- Este sistema de puntuación recompensa el envío agresivo de palabras, y los modelos con ajustes de seguridad más fuertes podrían ser más conservadores frente a ese estilo de spam indiscriminado
- En esos casos, el resultado puede reflejar no tanto una diferencia de capacidad pura, sino una desalineación entre el diseño de la tarea y el comportamiento alineado del modelo
- Un solo desafío no invalida los benchmarks generales
- Este rompecabezas pone a prueba la toma de decisiones en tiempo real y la capacidad de escribir código funcional que se conecte a un servidor TCP y juegue correctamente una partida nueva
- No es una tarea para evaluar razonamiento de contexto largo ni generación de código basada en especificaciones en sentido amplio
- Kimi K2.6 tiene 54 puntos en el Artificial Analysis Intelligence Index, GPT-5.5 tiene 60 y Claude 57
- No es un empate total, pero sí un nivel cercano, y el hecho de que Kimi K2.6 sea un modelo que cualquiera puede descargar cambia la dinámica competitiva
- Cuando un modelo que está a solo unos puntos de la frontera puede ejecutarse libremente en local, la situación competitiva ya no es la misma que hace un año
- Este desafío es un dato más que sugiere que la brecha se ha reducido lo suficiente como para que resultados así puedan darse
1 comentarios
Opiniones en Hacker News
Parece que durante el próximo año van a seguir saliendo artículos así. Es porque no hay una forma objetiva de comparar modelos. Si dejas fuera números de bajo nivel como la velocidad de generación de tokens, la cantidad promedio de tokens de razonamiento, el número de parámetros o la cantidad de expertos activos, cada modelo tiene usos distintos, usuarios distintos y además no son deterministas
Por eso van a seguir apareciendo benchmarks y declaraciones de que "este modelo venció a aquel", pero no existe el mejor modelo. Solo hay modelos que se ajustan a los criterios de cada quien, y al final es muy posible que terminemos en un mundo como Windows vs MacOS vs Linux, con cada quien quedándose en su propio bando
Son open source y cuestan mucho menos por token que los modelos de EE. UU. Ahorita uso el plan cloud de Ollama de $20, y ahí sí puedo hacer trabajo real para proyectos paralelos que en el plan Claude Pro de $20 llegaban al límite con uno o dos prompts. Elegí Ollama solo porque su CLI es práctica, y además hay muchos proveedores que ofrecen estos modelos, así que tampoco quedas atado a malas condiciones o reglas de uso. Lo veo como una señal bastante mala para la economía estadounidense
Si ajustas cada modelo para que rinda al máximo según las tareas esperadas, los rankings entre distintos benchmarks coinciden en un grado bastante alto: https://arxiv.org/abs/2507.05195
Pero el autor de este texto no hizo ese procedimiento. Solo ejecutó cada modelo una vez en 13 problemas, y luego destacó el resultado del problema número 12. Ni siquiera pensó en el valor p, así que cuesta llamarlo p-hacking. La calidad de los modelos de lenguaje grandes varía mucho entre ejecuciones, así que correr cada modelo una sola vez se parece a lanzar dos monedas una vez, que una salga cara y la otra cruz, y luego querer decir cuál de las dos está más sesgada
Aún no se adopta de forma amplia, y desde la perspectiva de cada actor involucrado quizá les convenga que siga así por un tiempo. En la práctica, se parece bastante al p-hacking
Los blogs y los textos son negocios en sí mismos o generan tráfico para negocios alrededor de la tecnología, y muchos de estos artículos de evaluación existen para atraer atención. Eso no es malo en sí, pero sí mete mucho ruido
La industria casi no sabe determinar si un ingeniero de software es objetivamente mejor que otro en casi ningún sentido. Entonces no entiendo por qué se piensa que sí se puede hacer un ranking objetivo de los modelos
Me da gusto que se esté avanzando hacia pruebas con calificación objetiva
Nosotros hemos hecho eso a gran escala en https://gertlabs.com/rankings, y aunque parece que el autor corrió una muestra aislada, no sorprende que Kimi K2.6 rinda bien. Según nuestras pruebas, sobre todo en coding, Kimi está dentro del margen de incertidumbre estadística de MiMo V2.5 Pro, que es el mejor modelo open weights, y en uso de herramientas sale mucho mejor que DeepSeek V4 Pro. GPT 5.5 va cómodamente por delante, pero Kimi está al nivel de Opus 4.6 o incluso mejor. Eso sí, el problema de Kimi 2.6 es que está entre los modelos más lentos que hemos probado
Para que represente coding, habría que probar más de 100 acertijos de este tipo, a lo largo de todo el espectro de acertijos, para ver quién encuentra mejor estrategias apoyándose en un diccionario de inglés
También coincide con un comentario de ayer aquí, donde decían que los modelos Flash hacen mejor el tool calling. Una combinación de GPT 5.5 para planear y un modelo Flash para implementar podría ser una ruta con muy buena relación costo-beneficio
El rendimiento depende no solo del idioma y la tarea, sino también del prompt usado y del resultado esperado. En pruebas internas nos costó muchísimo decidir cuál era mejor entre GPT 5.5 y Opus 4.7. Tienen estilos distintos y al final casi es cuestión de preferencia. A veces le daba la victoria a uno, luego lo volvía a pensar y cambiaba de opinión. Al final prefiero un poco más Opus 4.7
Según un estudio que leí hace unos días, al ritmo actual se espera que los modelos open source superen a los modelos en la nube en unos cuantos años
Si miras hacia atrás a ChatGPT y Claude de hace unos años, incluso modelos pequeños de Qwen ya son casi equivalentes en coding a lo que hacían entonces los modelos basados en la nube. Si además consideras las leyes de escalado, pasar de 9B a 18B es aproximadamente un aumento de 40%, pero de 18B a 35B es como de 20%, así que parece que al menos habrá cambios de precio en los modelos cloud. Adobe antes también costaba $600 al mes, pero cuando la escala de distribución creció pasó a costar $20
La verdad simple es que los modelos cloud siempre pueden ser estrictamente superiores a los modelos abiertos. Los proveedores cloud también pueden correr esos mismos modelos abiertos. Además conservan economías de escala y eficiencia al operar grandes centros de datos llenos de hardware especializado. Como mínimo, pueden ofrecer modelos abiertos a un precio por token más bajo que la factura eléctrica de cualquiera. Encima de eso, tienen personal investigando los modelos y los sistemas alrededor, y también pueden pagar a los mejores ingenieros para mantener entornos de ejecución siempre por delante de las herramientas de moda en GitHub
Incluso si existe un modelo suficientemente bueno, ¿qué pasa si los proveedores de modelos cloud consiguen mejor el hardware para inferencia?
Kimi es realmente bueno
He usado Sonnet, DeepSeek, ChatGPT, MiniMax, Qwen y otros en proyectos de compiladores y máquinas virtuales, y el plan Claude Pro está casi a un nivel inutilizable para trabajo serio de programación. Por eso lo uso en modo de chat del navegador para evitar que lea todo el proyecto innecesariamente, y Kimi lo uso junto con pi en el plan OpenCode Go. En proyectos de C+Python, Kimi superó consistentemente a Sonnet y nunca me preocupó que hiciera cosas que no le pedí. GLM se descarriló feo una o dos veces, pero Kimi no
Es el resultado de una sola tarea, medido únicamente por el rendimiento de la solución
Kimi K2.6 claramente es un modelo de tamaño de frontera, así que no es tan sorprendente que esté junto a modelos cerrados de frontera. Que sea abierto está bien, pero para alguien como yo, que solo tiene una GPU de consumo, eso no significa tanto
Aunque yo no tenga dinero para comprar el hardware que hace falta para correr un gran modelo open source, alguien sí lo tendrá, y aun cobrando la mitad de lo que cuestan los modelos cerrados puede sacar ganancia. La única razón por la que eso no se ve ahorita es que los proveedores líderes de tokens están subsidiando los costos de inferencia. En el momento en que empiecen el deterioro de calidad y la presión por monetizar, un mercado alternativo se vuelve posible. Sin modelos open source no hay una alternativa real. Incluso si quisieran cobrar solo el 80% del costo para desarrolladores, la existencia de modelos open source que no están muy por detrás ya funciona como fuerza de presión. No tienen foso defensivo
Para uso personal estoy usando planes de coding con GLM 5.1, Kimi K2.6, MiniMax M2.7 y Xiaomi MiMo V2.5 Pro, y la relación precio-rendimiento es muy buena
El deterioro de calidad al principio no se nota, pero ya estoy viendo que modelos de frontera que antes me gustaban se han debilitado mucho y hacen tonterías que antes no hacían. A medida que dependemos más de ellos, necesitamos modelos open weights que funcionen como una plataforma estable
Para una RTX pequeña en casa siempre puedes destilar después. Pero los modelos pensados para hardware de consumo tienen dificultades para adoptarse ampliamente o para seguir siendo competitivos frente a los labs de frontera. Esta sí es una forma que puede competir, y va a requerir e impulsar una nueva generación de infraestructura cloud abierta para inferencia. Primero veremos productos tipo “desplegar con un botón” o “ajustar con un botón”, y después podrían aparecer productos mucho más avanzados que solo son posibles con open weights no encerrados detrás de una API. Ahora solo faltan modelos abiertos equivalentes a Nano Banana Pro / GPT Image 2 y Seedance 2.0. La batalla y el enfoque deberían estar en open weights para centros de datos
Me sorprendió ver el ranking, pero al leer la prueba se entiende. No parece tener mucho que ver con coding
El ranking actual de la prueba completa tiene más sentido. Salvo por lo bien que le va a Gemini: https://aicc.rayonnant.ai
DNP significa que no participó. Desde ese punto de vista, Kimi obtuvo más y mejores medallas que Claude
Es anecdótico, pero después de pasar los últimos meses usando solo Claude Code, me sorprendieron para bien las capacidades de Pi + Kimi K2.6. Si lo usas por OpenRouter, además va muchísimo más rápido y cuesta bastante menos
Por desgracia, Kimi no está nada cerca de GPT ni de Opus. Ojalá lo estuviera, pero no
Estoy corriendo una evaluación donde el modelo tiene que generar código para crear modelos 3D, y está claro que le falta comprensión espacial y que comete muchos más errores de código antes de lograrlo. Puede que en algunos casos específicos sea mejor, y supongo que este post del blog es un ejemplo de eso
Ni siquiera es un tema visual. DeepSeek no es multimodal, pero por alguna razón Opus entiende mucho mejor la API de Blender. Parece que siempre hay áreas pequeñas donde los modelos cerrados de frontera funcionan un poco mejor
Esto parece menos que Kimi programe mejor que Claude, y más que Kimi encontró la estrategia correcta para un juego específico
Aun así es interesante. El verdadero punto quizá sea que los modelos open weights ya se acercaron lo suficiente como para que esa diferencia sí importe
No conozco muy bien el campo de la IA, pero intentar entrenar un modelo para que lo haga todo para todo el mundo me parece una idea realmente tonta
Requiere recursos enormes y provoca escasez extrema y distorsiones de mercado en todo lo que usan las empresas de IA: RAM, SSD, centros de datos, etc. En la vida real no contratas a un plomero esperando también jardinería, reparación de autos y arreglo de ropa. Por ejemplo, parece mucho mejor en uso de recursos poder descargar una app especializada en programación de shell, Python y C, o incluso tener tres apps de ese tipo comunicándose entre sí. Tal vez hasta podrían correr en una máquina común con 16 GB de RAM. No hace falta un modelo gigante que también pueda programar en Fortran, COBOL y Lisp. A los humanos nos ha ido bastante bien con la especialización, y ojalá se explore más esa vía de modelos de IA pequeños y enfocados, en vez de la ruta actual de “un solo modelo lo domina todo y solo puede correr en centros de datos del tamaño de un país”
Desde GPT-3, la gente ha dicho que ningún modelo puede ser tan general y que por eso el ajuste fino es mejor, pero con cada generación esa afirmación se vuelve menos cierta