- Modelo que elevó el rendimiento en coding de largo recorrido y tareas de tipo agente, reforzando el rendimiento de generalización en varios lenguajes y en frontend, devops y optimización de rendimiento en general
- Procesa tareas de ingeniería complejas con coding de ejecución sostenida y, tras miles de llamadas a herramientas y más de 12 horas de ejecución continua, registró grandes mejoras de throughput en la optimización de inferencia en Zig y en una renovación completa de exchange-core
- Convierte prompts simples en una interfaz frontend completa y aprovecha incluso herramientas de generación de imágenes y video, dando soporte a workflows full-stack simples que incluyen autenticación y trabajo con bases de datos
- Escaló la arquitectura Agent Swarm a 300 subagentes y 4,000 etapas de coordinación para ejecutar en paralelo tareas de búsqueda, research, redacción de documentos y creación de archivos, y convertir el formato y estilo de documentos PDF, diapositivas, hojas de cálculo y Word en skills reutilizables
- Amplió el alcance a agentes proactivos y Claw Groups para realizar operación autónoma de larga duración, colaboración multiagente y reasignación de tareas, con mejoras confirmadas en coding, llamadas a herramientas y confiabilidad de ejecución prolongada en benchmarks y pruebas beta empresariales
Coding de largo recorrido
- Se confirmaron mejoras de rendimiento en tareas de coding de largo recorrido, reforzando el rendimiento de generalización en varios lenguajes como Rust, Go y Python, y en diversas tareas como frontend, devops y optimización de rendimiento
- En el benchmark interno de coding Kimi Code Bench, registró una mejora importante frente a Kimi K2.5 en tareas complejas end-to-end
- Realiza coding de ejecución sostenida en tareas de ingeniería complejas
- Descargó y desplegó con éxito el modelo Qwen3.5-0.8B en un entorno local de Mac
- Implementó y optimizó inferencia del modelo en Zig, un lenguaje relativamente especializado, demostrando capacidad de generalización fuera de distribución
- Tras más de 4,000 llamadas a herramientas, más de 12 horas de ejecución continua y 14 iteraciones, elevó el throughput de aproximadamente 15 tokens/sec a aprox. 193 tokens/sec
- La velocidad final fue aprox. 20% más rápida que LM Studio
- Llevó a cabo una renovación completa del motor open source de matching financiero de 8 años exchange-core
- Durante 13 horas de ejecución, repitió 12 estrategias de optimización y, con más de 1,000 llamadas a herramientas, ajustó con precisión más de 4,000 líneas de código
- Identificó cuellos de botella ocultos mediante análisis de flame graph de asignación de CPU y memoria
- Reconfiguró la topología de hilos del core de 4ME+2RE a 2ME+1RE
- En un motor que ya estaba cerca de su límite de rendimiento, logró 185% de aumento en throughput medio (0.43→1.24 MT/s) y 133% de aumento en throughput de rendimiento (1.23→2.86 MT/s)
- En evaluaciones empresariales de la beta también se confirmaron múltiples valoraciones positivas relacionadas con la confiabilidad del coding de largo plazo y la calidad de las llamadas a herramientas
- Baseten mencionó un rendimiento en tareas de coding comparable al de modelos cerrados líderes, fuerte calidad en llamadas a herramientas basada en comprensión de frameworks de terceros y adecuación para tareas de ingeniería complejas y de larga duración
- Blackbox destacó un nuevo estándar para modelos open source en workflows de coding de largo plazo y de tipo agente, manejo de tareas complejas de múltiples etapas, alta calidad de código, estabilidad en sesiones prolongadas y capacidad de detectar bugs no evidentes
- CodeBuddy registró 12% de aumento en precisión de generación de código frente a K2.5, 18% de mejora en estabilidad de contexto largo y 96.60% de tasa de éxito en llamadas a herramientas
- Factory reportó una mejora de 15% en evaluaciones comparadas con sus propios benchmarks
- Fireworks señaló que los mayores avances estuvieron en confiabilidad de largo recorrido y capacidad de seguir instrucciones
- Hermes Agent mencionó la estrecha integración entre llamadas a herramientas y loops de agentes, mejoras en coding y expansión del alcance creativo
- Kilo destacó rendimiento de nivel SOTA a bajo costo y fortalezas en tareas de contexto largo a través de toda la base de código
- Ollama mencionó adecuación para coding y herramientas de agentes, estabilidad en sesiones largas de múltiples etapas e integración inmediata con integraciones existentes
- OpenCode destacó la estabilidad en descomposición de tareas y llamadas a herramientas, reducción del overhead iterativo y confiabilidad de la experiencia end-to-end
- Qoder mencionó incremento en la frecuencia de llamadas a herramientas y al modelo, mayor proactividad durante la ejecución de tareas y reducción de interrupciones del usuario y latencia
- Vercel mencionó más de 50% de mejora en benchmarks de Next.js, rendimiento de primer nivel en la plataforma y adecuación para coding de tipo agente y generación frontend basada en eficiencia costo-rendimiento
Diseño centrado en coding
- Con una fuerte capacidad de coding, puede convertir prompts simples en una interfaz frontend completa
- Genera layouts estructurados, incluyendo una hero section estética, elementos interactivos y animaciones ricas con efectos activados por scroll
- Con base en su capacidad para usar herramientas de generación de imágenes y video, ofrece soporte para crear assets visualmente consistentes
- Contribuye a producir hero sections de mayor calidad y más llamativas
- Va más allá del frontend estático y se extiende a workflows full-stack simples
- Incluye autenticación, interacción de usuarios y trabajo con bases de datos
- Soporta casos de uso ligeros como registros de transacciones o gestión de sesiones
- Se construyó el benchmark interno Kimi Design Bench
- Está compuesto por cuatro categorías: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development y General Creative Programming
- Frente a Google AI Studio, registró resultados prometedores y buen rendimiento en varias categorías
- Se presentaron ejemplos creados por K2.6 Agent
- Los resultados se generaron usando un solo prompt y herramientas y harness preconfigurados
- En el aspecto estético, incluyen diseños frontend atractivos con interacciones ricas
- En el aspecto funcional, incluyen base de datos y autenticación integradas
- En el uso de herramientas, incluyen sitios web refinados creados con herramientas de generación de imágenes y video
Agent Swarm mejorado
- Adoptó una estructura centrada en escalar horizontalmente, no solo verticalmente
- Agent Swarm descompone dinámicamente el trabajo en subtareas heterogéneas, y agentes especializados por dominio generados por el propio sistema las ejecutan en paralelo
- Basado en el research preview de K2.5 Agent Swarm, Kimi K2.6 Agent Swarm presenta un salto cualitativo en la experiencia
- Combina búsqueda amplia con research profundo
- Combina análisis documental a gran escala con redacción extensa
- Ejecuta en paralelo la creación de contenido en múltiples formatos
- Ofrece entregables end-to-end que abarcan documentos, sitios web, diapositivas y hojas de cálculo dentro de una sola ejecución autónoma
- Se amplió la escala de escalado horizontal de la arquitectura
- 300 subagentes ejecutan 4,000 etapas de coordinación al mismo tiempo
- Es una gran expansión frente a los 100 subagentes y 1,500 etapas de K2.5
- La paralelización a gran escala reduce la latencia end-to-end, mejora la calidad de salida y amplía los límites operativos de Agent Swarm
- Es posible convertir archivos de alta calidad como PDF, hojas de cálculo, diapositivas y documentos Word en Skills
- Captura y mantiene la estructura y las características de estilo de los documentos
- Permite reproducir después la misma calidad y formato en otros trabajos
- Se presentaron múltiples tareas de ejemplo
- Diseñó y ejecutó 5 estrategias cuantitativas sobre 100 activos globales de semiconductores, extrajo un PPT estilo McKinsey como skill reutilizable y entregó una hoja de cálculo de modelado detallado junto con materiales completos para presentación ejecutiva
- Convirtió un artículo de astrofísica de alta calidad con abundantes datos visuales en un skill académico reutilizable, extrajo el flujo de razonamiento y el método de visualización, y generó un paper de investigación de 40 páginas y 7,000 palabras, un dataset estructurado de más de 20,000 ítems y 14 gráficos de nivel astronómico
- A partir de un currículum subido, generó 100 subagentes para hacer matching con 100 puestos relevantes en California y entregó un dataset estructurado de oportunidades y 100 currículums personalizados
- Identificó 30 tiendas minoristas en Los Angeles sin sitio web oficial en Google Maps y creó para cada una una landing page centrada en conversión
Agentes proactivos
- Registró un fuerte rendimiento en agentes autónomos y proactivos como OpenClaw y Hermes
- Soporta tipos de operación que corren 24 horas al día, 7 días a la semana a través de múltiples aplicaciones
- Atiende workflows distintos de la interacción simple basada en chat
- Requiere realizar como agentes persistentes en segundo plano tareas como gestión de agenda, ejecución de código y orquestación de trabajo entre plataformas
- El equipo de infraestructura de RL llevó a cabo una operación autónoma de 5 días usando agentes basados en K2.6
- Encargados de monitoreo, respuesta a incidentes y operación del sistema
- Demostraron mantenimiento de contexto persistente, manejo de tareas multihilo y ejecución de ciclo completo desde la alerta hasta la resolución
- Se menciona la existencia de logs de trabajo con información sensible eliminada
- Se midieron mejoras de confiabilidad en entornos reales
- Interpretación más precisa de APIs
- Rendimiento más estable en ejecuciones prolongadas
- Mayor conciencia de seguridad durante tareas de research de largo plazo
- Se cuantificaron mejoras de rendimiento con la suite interna de evaluación Claw Bench
- Incluye cinco áreas: Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management y Memory Utilization
- En todas las métricas, mostró grandes mejoras frente a Kimi K2.5 en tasa de finalización de tareas y precisión de llamadas a herramientas
- En particular, registró mejoras sólidas en workflows que requieren operación autónoma sostenida sin supervisión humana
Bring Your Own Agents
- Con una fuerte capacidad de orquestación, extiende los agentes proactivos a Claw Groups
- Se presenta como un research preview de una nueva forma de implementación de la arquitectura Agent Swarm
- Acepta un ecosistema abierto y heterogéneo
- Varios agentes y personas actúan juntos como colaboradores reales
- Los usuarios pueden incorporar agentes desde cualquier dispositivo y sin importar con qué modelo corran
- Cada agente cuenta con su propio conjunto de herramientas, skill y contexto de memoria persistente
- Agentes en entornos diversos como laptops locales, dispositivos móviles e instancias en la nube se integran naturalmente en un espacio operativo compartido
- En el centro, Kimi K2.6 cumple el papel de coordinador adaptativo
- Distribuye dinámicamente tareas según el perfil de skills y las herramientas disponibles de cada agente
- Optimiza las tareas según las capacidades más adecuadas
- Cuando detecta fallas o bloqueos de agentes, reasigna tareas o regenera subtareas
- Gestiona activamente todo el ciclo de vida de los entregables, desde el inicio hasta la validación y finalización
- Incluye casos de uso internos de Claw Groups
- Se usó internamente un equipo de marketing de agentes para refinar de forma real workflows humano-agente
- Trabajan juntos agentes especializados como Demo Makers, Benchmark Makers, Social Media Agents y Video Makers
- Operan la producción de contenido y campañas de lanzamiento end-to-end
- K2.6 coordina el intercambio de resultados intermedios y la conversión de ideas en entregables consistentes y terminados
- Amplía la relación entre humanos e IA más allá de preguntas y respuestas o asignación simple de tareas, hacia una alianza de colaboración real
- Plantea una visión futura en la que los límites entre "mi agente", "tu agente" y "nuestro equipo" desaparecen de forma natural dentro de un sistema colaborativo
Tabla de benchmarks
- Principales cifras del área Agentic
- HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
- BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 respectivamente 74.9 y 78.4
- DeepSearchQA f1-score 92.5, accuracy 83.0
- WideSearch item-f1 80.8
- Toolathlon 50.0, Kimi K2.5 27.8
- MCPMark 55.9
- Claw Eval pass^3 62.3, pass@3 80.9
- APEX-Agents 27.9
- OSWorld-Verified 73.1
- Principales cifras del área Coding
- Terminal-Bench 2.0 (Terminus-2) 66.7
- SWE-Bench Pro 58.6
- SWE-Bench Multilingual 76.7
- SWE-Bench Verified 80.2
- SciCode 52.2
- OJBench (python) 60.6
- LiveCodeBench (v6) 89.6
- Principales cifras del área Reasoning & Knowledge
- HLE-Full 34.7
- AIME 2026 96.4
- HMMT 2026 (Feb) 92.7
- IMO-AnswerBench 86.0
- GPQA-Diamond 90.5
- Principales cifras del área Vision
- MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
- CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
- MathVision 87.4, MathVision w/ python 93.2
- BabyVision 39.8, BabyVision w/ python 68.5
- V* w/ python 96.9
- Para reproducir oficialmente los resultados de benchmark de Kimi-K2.6, se recomienda usar la API oficial
- Incluye una guía para consultar Kimi Vendor Verifier (KVV) al elegir proveedores de terceros
Notas
-
Detalles generales de prueba
- Kimi K2.6 y Kimi K2.5 reportaron resultados con thinking mode enabled, Claude Opus 4.6 con max effort, GPT-5.4 con xhigh reasoning effort y Gemini 3.1 Pro con high thinking level
- Salvo indicación contraria, los experimentos de Kimi K2.6 se realizaron con temperature 1.0, top-p 1.0 y longitud de contexto de 262,144 tokens
- Los benchmarks sin puntajes públicos fueron reevaluados bajo las mismas condiciones que Kimi K2.6 y se marcaron con asterisco(*)
- Los resultados sin asterisco citan reportes oficiales
-
Benchmarks de razonamiento
- Los puntajes de IMO-AnswerBench de GPT-5.4 y Claude 4.6 se obtuvieron del blog de z.ai
- Humanity's Last Exam (HLE) y otras tareas de razonamiento se evaluaron con una longitud máxima de generación de 98,304 tokens
- El valor reportado por defecto es el conjunto completo de HLE
- En el subconjunto de solo texto, Kimi K2.6 registró 36.4% accuracy sin herramientas y 55.5% accuracy con herramientas
-
Tareas agentic y con refuerzo de herramientas
- En HLE with tools, BrowseComp, DeepSearchQA y WideSearch se equiparon herramientas de search, code-interpreter y web-browsing
- HLE-Full with tools se ejecutó con longitud máxima de generación de 262,144 tokens y límite por paso de 49,152 tokens
- Cuando la ventana de contexto supera el umbral, se usa una estrategia simple de gestión de contexto que conserva solo la ronda más reciente de mensajes relacionados con herramientas
- Los puntajes de BrowseComp se obtuvieron con gestión de contexto de estrategia discard-all, igual que en Kimi K2.5 y DeepSeek-V3.2
- En DeepSearchQA no se aplicó gestión de contexto a las pruebas de Kimi K2.6, y las tareas que superaron la longitud de contexto soportada se contabilizaron directamente como fallas
- Los puntajes de DeepSearchQA de Claude Opus 4.6, GPT-5.4 y Gemini 3.1 Pro citan la Claude Opus 4.7 System Card
- WideSearch reportó resultados con configuración de gestión de contexto hide tool result
- El system prompt de prueba fue el mismo que en el Kimi K2.5 technical report
- Claw Eval se ejecutó en version 1.1, con max-tokens-per-step 16384
- En APEX-Agents se evaluaron 452 tareas de un total público de 480
- Igual que Artificial Analysis, se excluyeron Investment Banking Worlds 244, 246
- El motivo de exclusión fue dependencia de runtime externo
-
Tareas de coding
- El puntaje de Terminal-Bench 2.0 se obtuvo usando el framework de agentes base Terminus-2 y el JSON parser provisto, con preserve thinking mode
- Las evaluaciones de la familia SWE-Bench (incluyendo Verified, Multilingual y Pro) usaron un framework interno de evaluación modificado a partir de SWE-agent
- La configuración de herramientas de ese framework consiste en el conjunto mínimo de bash tool, createfile tool, insert tool, view tool, strreplace tool y submit tool
- Todos los puntajes reportados para tareas de coding son promedios de 10 ejecuciones independientes
-
Benchmarks de visión
- Se aplicaron max-tokens 98,304 y promedio de 3 ejecuciones (avg@3)
- La configuración con herramienta Python realizó razonamiento multietapa con max-tokens-per-step 65,536 y max-steps 50
- MMMU-Pro sigue el protocolo oficial, mantiene el orden de entrada y coloca las imágenes al frente
3 comentarios
Opiniones en Hacker News
Lo probé a través de OpenRouter y me impresionó que este modelo no solo dibujara un pelícano en SVG, sino que además lo envolviera en HTML con control de velocidad de animación al exportarlo. El historial de la conversación y el HTML están en este gist, y el ejemplo en ejecución puede verse en este enlace
Viendo los benchmarks iniciales, Kimi K2.6 mejoró muchísimo frente a Kimi K2 Thinking. El modelo anterior había rendido mal en nuestros benchmarks, incluso usando la mejor configuración de cuantización. Ahora Kimi K2.6 está entre los mejores modelos open-weight en razonamiento de programación one-shot, un poco por encima de GLM 5.1, y parece competir con los SOTA de hace unos 3 meses, más o menos al nivel de Gemini 3.1 Pro Preview. Las pruebas tipo agente todavía están en curso, y los modelos open-weight suelen flojear en flujos de trabajo de agente con contexto largo, aunque GLM 5.1 aguantó bastante bien, así que tengo curiosidad por ver cómo sale Kimi. Eso sí, tanto la versión vieja como la nueva son lentas, así que puede haber límites de usabilidad para agentic coding en la práctica. El Kimi K2 anterior estaba muy optimizado para benchmarks y parecía más interesado en variación y temperatura que en resolver problemas difíciles, pero este modelo sí se ve mucho más sólido como modelo generalista. En conjunto, el lado open-weight se ve realmente muy bien, y casi da la impresión de que sale un modelo nuevo de nivel frontier cada semana. Los benchmarks detallados están en gertlabs
Hay una ironía graciosa en que China tal vez esté impulsando con open source la tecnología más importante del mundo, mientras EE. UU. va en la dirección contraria
Siempre me sorprendió que Kimi recibiera menos atención de la que esperaría. En creatividad y calidad venía destacándose de forma constante, y durante bastante tiempo fue mi modelo favorito. Claro, no soy ninguna autoridad
Me pregunto si alguien aquí ha usado Kimi en trabajo real. Yo lo probé una vez y, aunque los benchmarks se veían impresionantes, la impresión en uso real fue bastante normalita. En cambio, Qwen 3.6 sí me pareció bastante bueno; no llega a Opus, pero sentí que le puede pelear sin problemas a Sonnet
Si la intuición de benchmark y la sensación en uso real realmente coinciden, esto podría ser un momento tipo DeepSeek en el que la IA china queda casi hombro a hombro con los modelos de los mejores laboratorios de EE. UU.
Según mis pruebas y la comparación de aibenchy, Kimi K2.6 fue solo un poco mejor que Kimi K2.5. Sobre todo en acertijos, problemas específicos de dominio y tareas de precisión con trampa, vi con frecuencia incumplimiento de instrucciones y respuestas incorrectas. Puede ser excelente como modelo de coding, pero la sensación general de inteligencia todavía me parece un poco por debajo del SOTA más alto
A veces me pregunto si en el futuro, así como las computadoras antiguas ocupaban una habitación y ahora caben en el bolsillo, llegará un día en que una carga de cómputo equivalente a un datacenter pueda entrar en un solo dispositivo tipo teléfono. Como parece que el ritmo de avance tecnológico se acelera cada año, me da la impresión de que un cambio así también podría llegar más rápido
Estuve probándolo toda la mañana integrado en una app y, por sensaciones, el resultado me pareció similar a Sonnet 4.6. Es una impresión puramente de vibra, sin validación formal, pero me alegra ver competencia real entre modelos frontier
Me preguntaba si este modelo tiene alguna suscripción plana para coding; o sea, algo con límite por llamadas de API en vez de límite por tokens. Últimamente además se me cayó la suscripción en z.ai porque falló el cobro de GLM, y encima el precio subió demasiado en unos pocos meses
Personalmente, he estado usando muy bien kimi2.5 de forma ilimitada por 30 dólares al mes con firepass de Fireworks.ai, así que tengo muchísimas expectativas por la mejora de rendimiento de esta versión 2.6, que pronto también llegará a firepass.
Lo probé un rato vía API y sentí que hubo un avance muy grande frente a 2.5
Vaya, parece que bloquearon los nuevos registros.