- Kimi K2.5 es un modelo multimodal open source con entrenamiento adicional sobre aproximadamente 15 billones de tokens visuales y de texto, que integra capacidades de programación y procesamiento visual
- Mediante una arquitectura Agent Swarm que controla en paralelo hasta 100 subagentes, ejecuta tareas complejas hasta 4.5 veces más rápido
- Integrado con Kimi Code y Kimi App, admite diversas funciones orientadas al trabajo real como programación basada en imágenes y video, depuración visual y automatización de oficina
- En benchmarks internos, registró mejoras significativas frente a K2 en programación, visión y productividad de oficina
- En la comunidad open source, se le evalúa como un modelo que muestra un avance real hacia la AGI (inteligencia artificial general)
Resumen de Kimi K2.5
- Kimi K2.5 es un modelo multimodal nativo basado en K2, con preentrenamiento adicional sobre aproximadamente 15 billones de tokens mixtos de visión y texto
- Integra capacidades de programación y visión, e implementa el paradigma de agent swarm autónomo
- Hasta 100 subagentes pueden realizar en paralelo hasta 1,500 llamadas a herramientas, logrando un tiempo de ejecución de hasta 4.5 veces más rápido frente a un agente único
- Está disponible a través de Kimi.com, Kimi App, API y Kimi Code, con soporte para los modos Instant, Thinking, Agent y Agent Swarm (beta)
Integración de programación y visión
- K2.5 es un modelo open source de programación con fortalezas en desarrollo frontend, capaz de generar automáticamente interfaces conversacionales y UI complejas como animaciones activadas por scroll
- Soporta programación visual basada en imágenes y video, convirtiendo en código la intención expresada visualmente por el usuario
- Por ejemplo, puede reconstruir un sitio web a partir de un video o encontrar la ruta más corta en una imagen de laberinto con el algoritmo BFS (113,557 pasos)
- Gracias al entrenamiento conjunto a gran escala de visión y texto, mejoran al mismo tiempo las capacidades visuales y lingüísticas
- En el benchmark interno Kimi Code Bench, mostró mejoras consistentes frente a K2 en tareas multilenguaje de programación como compilación, depuración, refactorización y pruebas
- Kimi Code se integra con terminal e IDE como VSCode, Cursor y Zed, y admite entrada de imágenes y video junto con migración automática de skills
Agent Swarm
- K2.5 Agent Swarm no es una simple ampliación de un agente único, sino una arquitectura de colaboración paralela entrenada con Parallel-Agent Reinforcement Learning (PARL)
- Un agente orquestador descompone la tarea en subtareas paralelizables, y subagentes fijos las ejecutan al mismo tiempo
- La función de recompensa primero induce la exploración de paralelismo y luego cambia gradualmente a enfocarse en la calidad de la tarea Q(τ)
- Introduce una métrica centrada en latencia llamada Critical Steps para evaluar la eficiencia de la ejecución paralela
- En evaluaciones internas, logró una reducción del 80% en el tiempo de ejecución end-to-end y mejoró la capacidad de resolver tareas complejas de largo plazo
- Ejemplo: en una tarea para encontrar creadores de YouTube de 100 subcampos, generó en paralelo 100 subagentes y consolidó los resultados
Productividad de oficina
- K2.5 Agent admite automatización de trabajo de oficina a gran escala, procesando de forma conversacional desde documentos y hojas de cálculo hasta PDF y presentaciones
- En los benchmarks internos AI Office Benchmark y General Agent Benchmark, mejoró en 59.3% y 24.3%, respectivamente
- Puede realizar tareas avanzadas como agregar comentarios en Word, modelado financiero basado en Pivot Table y redacción de fórmulas LaTeX en PDF
- Completa en minutos trabajos extensos como la generación de un artículo de 10,000 palabras o un documento de 100 páginas
Conclusión
- Kimi K2.5 muestra avances en tres áreas: programación basada en visión, agent swarm y automatización de oficina, demostrando una aproximación a la AGI bajo restricciones del mundo real
- A futuro, planea redefinir los límites del trabajo del conocimiento mediante la expansión de la agentic intelligence
Apéndice: principales resultados de benchmarks
- Comparado con GPT-5.2, Claude 4.5, Gemini 3 Pro y otros en 7 áreas, incluyendo Reasoning, Vision, Coding y Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
- Registró rendimiento de primer nivel en la mayoría de los benchmarks de visión, programación y búsqueda agentic
- Todos los experimentos se realizaron con configuración de contexto de 256k tokens, temperature=1.0 y top-p=0.95
- Con Kimi Vendor Verifier (KVV) es posible verificar la precisión de servicios de terceros
1 comentarios
Comentarios en Hacker News
En la página de Kimi-K2.5 en Hugging Face se ve que es un modelo de 1 billón de parámetros
Está basado en licencia MIT, pero agrega la condición de que, en servicios comerciales con más de 100 millones de usuarios activos mensuales o más de 20 millones de dólares en ingresos, se debe mostrar “Kimi K2.5” en la UI
Es algo técnicamente asombroso, pero como de todos modos no se puede correr en casa, se siente como que al liberarlo gratis también se reduce a la mitad el riesgo
Mencionan agent swarm en la API, y quisiera saber si también publicaron los pesos de eso
El “momento Deepseek” fue justo hace un año
Comparado con entonces, ahora realmente se están publicando gratis muchísimas tecnologías, y se siente una libertad totalmente distinta al enfoque cerrado de OpenAI
Si además se incluyen GLM 4.7 flash, Minimax-M2 y la serie Qwen, la variedad es enorme
Yo cancelé mis suscripciones a OpenAI y Anthropic hace 2 años y no las extraño para nada
Incluso en Reddit seguían apareciendo de forma rara comentarios “pro-deepseek”. Casi parecía marketing al estilo Apple
Las empresas chinas seguramente no están liberando esto por amor a la humanidad
Comparten sitios útiles para comparar varios modelos
Kimi K2.5 ejecuta en paralelo hasta 100 subagentes y procesa en paralelo hasta 1,500 llamadas a herramientas
Resulta interesante que no solo haga llamadas de herramientas, sino que haya aprendido mediante aprendizaje por refuerzo (RL) la propia orquestación de agentes
Normalmente el modelo emite algo como “call tool X”, el IDE lo ejecuta y luego le devuelve el resultado
Yo estoy viendo un efecto parecido con TeammateTool de Claude Code
Además de K2.5, Moonshot AI también presentó Kimi Code
Es un agente de codificación para terminal que evolucionó desde el Kimi CLI existente; lo probé desde el mes pasado y es bastante estable
GitHub: MoonshotAI/kimi-cli
Tiene un hook de zsh que permite cambiar al modo agente desde cualquier lugar
Me parece interesante que K2.5 haya sido entrenado para crear subagentes automáticamente y armar un swarm
Es similar a los subagentes dinámicos de Claude Code, pero puede manejar de forma autónoma muchos más agentes
Me da curiosidad si Claude también estará haciendo un entrenamiento parecido y si lo mostrarán en la próxima versión
Últimamente los modelos chinos están tomando a Claude Opus como referencia para sus benchmarks
Tanto Qwen3 max thinking como Kimi K2.5 se comparan con Opus y no con Sonnet. Lo están alcanzando casi al mismo ritmo
Kimi K2 tenía fama de tener una alta inteligencia emocional (emotional intelligence)
Me pregunto si K2.5 mantendrá esa característica
La puntuación de CCP-bench mejoró mucho en K2.5
Ver imagen relacionada
Felicitaciones al equipo de Kimi
Pero sigo teniendo curiosidad por por qué Claude sigue siendo el número 1 en codificación. Quisiera saber si es por entrenamiento especializado en código o por la calidad general del aprendizaje
Ojalá alguien le gane a Opus 4.5 en coding
De hecho, a veces los modelos están sobreajustados a los benchmarks
He usado tanto GPT5.2 como Opus 4.5 y, en rendimiento real de programación, son casi iguales
Además, K2.5 cuesta alrededor de 1/5 de los modelos top, así que genera expectativas
Opus suele meter abstracciones innecesarias o hardcodeo