Kimi presenta Kimi K2.5, el modelo open source visual SOTA-agentic

(kimi.com)

3 puntos por GN⁺ 2026-01-28 | 1 comentarios | Compartir por WhatsApp

Kimi K2.5 es un modelo multimodal open source con entrenamiento adicional sobre aproximadamente 15 billones de tokens visuales y de texto, que integra capacidades de programación y procesamiento visual
Mediante una arquitectura Agent Swarm que controla en paralelo hasta 100 subagentes, ejecuta tareas complejas hasta 4.5 veces más rápido
Integrado con Kimi Code y Kimi App, admite diversas funciones orientadas al trabajo real como programación basada en imágenes y video, depuración visual y automatización de oficina
En benchmarks internos, registró mejoras significativas frente a K2 en programación, visión y productividad de oficina
En la comunidad open source, se le evalúa como un modelo que muestra un avance real hacia la AGI (inteligencia artificial general)

Resumen de Kimi K2.5

Kimi K2.5 es un modelo multimodal nativo basado en K2, con preentrenamiento adicional sobre aproximadamente 15 billones de tokens mixtos de visión y texto
- Integra capacidades de programación y visión, e implementa el paradigma de agent swarm autónomo
Hasta 100 subagentes pueden realizar en paralelo hasta 1,500 llamadas a herramientas, logrando un tiempo de ejecución de hasta 4.5 veces más rápido frente a un agente único
Está disponible a través de Kimi.com, Kimi App, API y Kimi Code, con soporte para los modos Instant, Thinking, Agent y Agent Swarm (beta)

Integración de programación y visión

K2.5 es un modelo open source de programación con fortalezas en desarrollo frontend, capaz de generar automáticamente interfaces conversacionales y UI complejas como animaciones activadas por scroll
Soporta programación visual basada en imágenes y video, convirtiendo en código la intención expresada visualmente por el usuario
- Por ejemplo, puede reconstruir un sitio web a partir de un video o encontrar la ruta más corta en una imagen de laberinto con el algoritmo BFS (113,557 pasos)
Gracias al entrenamiento conjunto a gran escala de visión y texto, mejoran al mismo tiempo las capacidades visuales y lingüísticas
En el benchmark interno Kimi Code Bench, mostró mejoras consistentes frente a K2 en tareas multilenguaje de programación como compilación, depuración, refactorización y pruebas
Kimi Code se integra con terminal e IDE como VSCode, Cursor y Zed, y admite entrada de imágenes y video junto con migración automática de skills

Agent Swarm

K2.5 Agent Swarm no es una simple ampliación de un agente único, sino una arquitectura de colaboración paralela entrenada con Parallel-Agent Reinforcement Learning (PARL)
- Un agente orquestador descompone la tarea en subtareas paralelizables, y subagentes fijos las ejecutan al mismo tiempo
La función de recompensa primero induce la exploración de paralelismo y luego cambia gradualmente a enfocarse en la calidad de la tarea Q(τ)
Introduce una métrica centrada en latencia llamada Critical Steps para evaluar la eficiencia de la ejecución paralela
En evaluaciones internas, logró una reducción del 80% en el tiempo de ejecución end-to-end y mejoró la capacidad de resolver tareas complejas de largo plazo
- Ejemplo: en una tarea para encontrar creadores de YouTube de 100 subcampos, generó en paralelo 100 subagentes y consolidó los resultados

Productividad de oficina

K2.5 Agent admite automatización de trabajo de oficina a gran escala, procesando de forma conversacional desde documentos y hojas de cálculo hasta PDF y presentaciones
En los benchmarks internos AI Office Benchmark y General Agent Benchmark, mejoró en 59.3% y 24.3%, respectivamente
Puede realizar tareas avanzadas como agregar comentarios en Word, modelado financiero basado en Pivot Table y redacción de fórmulas LaTeX en PDF
Completa en minutos trabajos extensos como la generación de un artículo de 10,000 palabras o un documento de 100 páginas

Conclusión

Kimi K2.5 muestra avances en tres áreas: programación basada en visión, agent swarm y automatización de oficina, demostrando una aproximación a la AGI bajo restricciones del mundo real
A futuro, planea redefinir los límites del trabajo del conocimiento mediante la expansión de la agentic intelligence

Apéndice: principales resultados de benchmarks

Comparado con GPT-5.2, Claude 4.5, Gemini 3 Pro y otros en 7 áreas, incluyendo Reasoning, Vision, Coding y Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
Registró rendimiento de primer nivel en la mayoría de los benchmarks de visión, programación y búsqueda agentic
Todos los experimentos se realizaron con configuración de contexto de 256k tokens, temperature=1.0 y top-p=0.95
Con Kimi Vendor Verifier (KVV) es posible verificar la precisión de servicios de terceros

1 comentarios

GN⁺ 2026-01-28

Comentarios en Hacker News

En la página de Kimi-K2.5 en Hugging Face se ve que es un modelo de 1 billón de parámetros
Está basado en licencia MIT, pero agrega la condición de que, en servicios comerciales con más de 100 millones de usuarios activos mensuales o más de 20 millones de dólares en ingresos, se debe mostrar “Kimi K2.5” en la UI
- Al ser 1 billón, incluso en int4 probablemente necesite como medio terabyte de VRAM
  Es algo técnicamente asombroso, pero como de todos modos no se puede correr en casa, se siente como que al liberarlo gratis también se reduce a la mitad el riesgo
- Parece que para los desarrolladores de Cursor, que intentaron ocultar que el modelo Composer estaba basado en GLM, esto debe ser una noticia bastante incómoda
- Me pregunto si el thinking, instruct, agent y agent swarm(beta) de Kimi K2.5 son todos open source
  Mencionan agent swarm en la API, y quisiera saber si también publicaron los pesos de eso
- Al ver la cláusula de “si tienes más de 20 millones de dólares en ingresos, muestra Kimi K2.5 en la UI”, casi parece que sería mejor decir simplemente “paga 1 millón de dólares”
El “momento Deepseek” fue justo hace un año
Comparado con entonces, ahora realmente se están publicando gratis muchísimas tecnologías, y se siente una libertad totalmente distinta al enfoque cerrado de OpenAI
- Incluso después de DeepSeekR1, la velocidad de avance de los modelos chinos como v3-0324, v3.1, v3.1-terminus y v3.2-speciale es impresionante
  Si además se incluyen GLM 4.7 flash, Minimax-M2 y la serie Qwen, la variedad es enorme
  Yo cancelé mis suscripciones a OpenAI y Anthropic hace 2 años y no las extraño para nada
- No es casualidad. Las empresas chinas suelen hacer grandes lanzamientos antes del Año Nuevo Lunar, así que es probable que salga más antes del 17 de febrero
- Me da curiosidad por qué publican gratis un modelo tan enorme. Me hace preguntarme cuál es el modelo de negocio
- Creo que Deepseek en realidad fue un proyecto centrado en marketing
  Incluso en Reddit seguían apareciendo de forma rara comentarios “pro-deepseek”. Casi parecía marketing al estilo Apple
- Pero estos modelos también pueden ser mal utilizados para ataques de seguridad o ataques biológicos
  Las empresas chinas seguramente no están liberando esto por amor a la humanidad
Comparten sitios útiles para comparar varios modelos
- lmarena.ai/leaderboard — enfrentamientos ELO entre modelos
- dashboard.safe.ai — panel de CAIS
- clocks.brianmoore.com — comparación de cómo dibujan relojes los modelos
- eqbench.com — benchmark de inteligencia emocional
- ocrarena.ai/battle — batallas de OCR
- mafia-arena.com — enfrentamientos en el juego de mafia
- openrouter.ai/rankings — cuota de uso basada en OpenRouter
Kimi K2.5 ejecuta en paralelo hasta 100 subagentes y procesa en paralelo hasta 1,500 llamadas a herramientas
Resulta interesante que no solo haga llamadas de herramientas, sino que haya aprendido mediante aprendizaje por refuerzo (RL) la propia orquestación de agentes
- Pero 1,500 llamadas a herramientas son una pesadilla de estructura de costos. Con apenas unas decenas de pasos ya se destruye el margen, así que sin capital de VC parece insostenible
- Me pregunto si “self-direct an agent swarm” es una función interna del modelo o si está implementado a nivel de IDE/servicio
  Normalmente el modelo emite algo como “call tool X”, el IDE lo ejecuta y luego le devuelve el resultado
- Los agentes paralelos son un truco simple pero potente
  Yo estoy viendo un efecto parecido con TeammateTool de Claude Code
Además de K2.5, Moonshot AI también presentó Kimi Code
Es un agente de codificación para terminal que evolucionó desde el Kimi CLI existente; lo probé desde el mes pasado y es bastante estable
GitHub: MoonshotAI/kimi-cli
- No es solo un agente de codificación, también cumple el rol de shell
  Tiene un hook de zsh que permite cambiar al modo agente desde cualquier lugar
- Me pregunto si soporta la función swarm y también si soporta Opencode
- También quisiera saber cómo rinde comparado con CC
Me parece interesante que K2.5 haya sido entrenado para crear subagentes automáticamente y armar un swarm
Es similar a los subagentes dinámicos de Claude Code, pero puede manejar de forma autónoma muchos más agentes
Me da curiosidad si Claude también estará haciendo un entrenamiento parecido y si lo mostrarán en la próxima versión
Últimamente los modelos chinos están tomando a Claude Opus como referencia para sus benchmarks
Tanto Qwen3 max thinking como Kimi K2.5 se comparan con Opus y no con Sonnet. Lo están alcanzando casi al mismo ritmo
- En clocks.brianmoore.com, K2 es uno de los pocos modelos que pasó perfectamente la prueba del reloj
- Los laboratorios chinos siguen el patrón de destilar (distill) modelos SOTA occidentales y alcanzarlos en unos pocos meses
- En benchmarks se ven parecidos, pero en usabilidad real los modelos de Anthropic todavía van por delante
- Al final lo más importante son los escenarios de uso reales. Solo con puntajes de benchmark es difícil juzgar
Kimi K2 tenía fama de tener una alta inteligencia emocional (emotional intelligence)
Me pregunto si K2.5 mantendrá esa característica
- Yo también tuve esa impresión. De verdad me intriga cómo lograron implementar ese tipo de respuesta emocional
- Pienso probarlo en mafia-arena.com
- Aunque es subjetivo, me pareció más humano que Gemini 3, GPT 5.2 y Opus 4.5
La puntuación de CCP-bench mejoró mucho en K2.5
Ver imagen relacionada
Felicitaciones al equipo de Kimi
Pero sigo teniendo curiosidad por por qué Claude sigue siendo el número 1 en codificación. Quisiera saber si es por entrenamiento especializado en código o por la calidad general del aprendizaje
Ojalá alguien le gane a Opus 4.5 en coding
- La diferencia en benchmarks casi no significa nada. El ruido del entorno real de programación es mucho mayor
  De hecho, a veces los modelos están sobreajustados a los benchmarks
  He usado tanto GPT5.2 como Opus 4.5 y, en rendimiento real de programación, son casi iguales
  Además, K2.5 cuesta alrededor de 1/5 de los modelos top, así que genera expectativas
- Yo uso Gemini Pro en lugar de Opus, porque reestructura mejor el código y refleja mejor los requisitos
  Opus suele meter abstracciones innecesarias o hardcodeo
- Gemini 3 Pro es especialmente mucho mejor en codebases grandes
- Opus 4.5 es un modelo lanzado hace dos meses, y es el resultado de que Anthropic se haya enfocado especialmente en rendimiento de codificación

Kimi presenta Kimi K2.5, el modelo open source visual SOTA-agentic

Resumen de Kimi K2.5

Integración de programación y visión

Agent Swarm

Productividad de oficina

Conclusión

Apéndice: principales resultados de benchmarks

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News