3 puntos por GN⁺ 2026-01-28 | 1 comentarios | Compartir por WhatsApp
  • Kimi K2.5 es un modelo multimodal open source con entrenamiento adicional sobre aproximadamente 15 billones de tokens visuales y de texto, que integra capacidades de programación y procesamiento visual
  • Mediante una arquitectura Agent Swarm que controla en paralelo hasta 100 subagentes, ejecuta tareas complejas hasta 4.5 veces más rápido
  • Integrado con Kimi Code y Kimi App, admite diversas funciones orientadas al trabajo real como programación basada en imágenes y video, depuración visual y automatización de oficina
  • En benchmarks internos, registró mejoras significativas frente a K2 en programación, visión y productividad de oficina
  • En la comunidad open source, se le evalúa como un modelo que muestra un avance real hacia la AGI (inteligencia artificial general)

Resumen de Kimi K2.5

  • Kimi K2.5 es un modelo multimodal nativo basado en K2, con preentrenamiento adicional sobre aproximadamente 15 billones de tokens mixtos de visión y texto
    • Integra capacidades de programación y visión, e implementa el paradigma de agent swarm autónomo
  • Hasta 100 subagentes pueden realizar en paralelo hasta 1,500 llamadas a herramientas, logrando un tiempo de ejecución de hasta 4.5 veces más rápido frente a un agente único
  • Está disponible a través de Kimi.com, Kimi App, API y Kimi Code, con soporte para los modos Instant, Thinking, Agent y Agent Swarm (beta)

Integración de programación y visión

  • K2.5 es un modelo open source de programación con fortalezas en desarrollo frontend, capaz de generar automáticamente interfaces conversacionales y UI complejas como animaciones activadas por scroll
  • Soporta programación visual basada en imágenes y video, convirtiendo en código la intención expresada visualmente por el usuario
    • Por ejemplo, puede reconstruir un sitio web a partir de un video o encontrar la ruta más corta en una imagen de laberinto con el algoritmo BFS (113,557 pasos)
  • Gracias al entrenamiento conjunto a gran escala de visión y texto, mejoran al mismo tiempo las capacidades visuales y lingüísticas
  • En el benchmark interno Kimi Code Bench, mostró mejoras consistentes frente a K2 en tareas multilenguaje de programación como compilación, depuración, refactorización y pruebas
  • Kimi Code se integra con terminal e IDE como VSCode, Cursor y Zed, y admite entrada de imágenes y video junto con migración automática de skills

Agent Swarm

  • K2.5 Agent Swarm no es una simple ampliación de un agente único, sino una arquitectura de colaboración paralela entrenada con Parallel-Agent Reinforcement Learning (PARL)
    • Un agente orquestador descompone la tarea en subtareas paralelizables, y subagentes fijos las ejecutan al mismo tiempo
  • La función de recompensa primero induce la exploración de paralelismo y luego cambia gradualmente a enfocarse en la calidad de la tarea Q(τ)
  • Introduce una métrica centrada en latencia llamada Critical Steps para evaluar la eficiencia de la ejecución paralela
  • En evaluaciones internas, logró una reducción del 80% en el tiempo de ejecución end-to-end y mejoró la capacidad de resolver tareas complejas de largo plazo
    • Ejemplo: en una tarea para encontrar creadores de YouTube de 100 subcampos, generó en paralelo 100 subagentes y consolidó los resultados

Productividad de oficina

  • K2.5 Agent admite automatización de trabajo de oficina a gran escala, procesando de forma conversacional desde documentos y hojas de cálculo hasta PDF y presentaciones
  • En los benchmarks internos AI Office Benchmark y General Agent Benchmark, mejoró en 59.3% y 24.3%, respectivamente
  • Puede realizar tareas avanzadas como agregar comentarios en Word, modelado financiero basado en Pivot Table y redacción de fórmulas LaTeX en PDF
  • Completa en minutos trabajos extensos como la generación de un artículo de 10,000 palabras o un documento de 100 páginas

Conclusión

  • Kimi K2.5 muestra avances en tres áreas: programación basada en visión, agent swarm y automatización de oficina, demostrando una aproximación a la AGI bajo restricciones del mundo real
  • A futuro, planea redefinir los límites del trabajo del conocimiento mediante la expansión de la agentic intelligence

Apéndice: principales resultados de benchmarks

  • Comparado con GPT-5.2, Claude 4.5, Gemini 3 Pro y otros en 7 áreas, incluyendo Reasoning, Vision, Coding y Agentic Search
    • HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
    • MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
    • SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
    • BrowseComp (Swarm Mode) : 78.4
  • Registró rendimiento de primer nivel en la mayoría de los benchmarks de visión, programación y búsqueda agentic
  • Todos los experimentos se realizaron con configuración de contexto de 256k tokens, temperature=1.0 y top-p=0.95
  • Con Kimi Vendor Verifier (KVV) es posible verificar la precisión de servicios de terceros

1 comentarios

 
GN⁺ 2026-01-28
Comentarios en Hacker News
  • En la página de Kimi-K2.5 en Hugging Face se ve que es un modelo de 1 billón de parámetros
    Está basado en licencia MIT, pero agrega la condición de que, en servicios comerciales con más de 100 millones de usuarios activos mensuales o más de 20 millones de dólares en ingresos, se debe mostrar “Kimi K2.5” en la UI

    • Al ser 1 billón, incluso en int4 probablemente necesite como medio terabyte de VRAM
      Es algo técnicamente asombroso, pero como de todos modos no se puede correr en casa, se siente como que al liberarlo gratis también se reduce a la mitad el riesgo
    • Parece que para los desarrolladores de Cursor, que intentaron ocultar que el modelo Composer estaba basado en GLM, esto debe ser una noticia bastante incómoda
    • Me pregunto si el thinking, instruct, agent y agent swarm(beta) de Kimi K2.5 son todos open source
      Mencionan agent swarm en la API, y quisiera saber si también publicaron los pesos de eso
    • Al ver la cláusula de “si tienes más de 20 millones de dólares en ingresos, muestra Kimi K2.5 en la UI”, casi parece que sería mejor decir simplemente “paga 1 millón de dólares
  • El “momento Deepseek” fue justo hace un año
    Comparado con entonces, ahora realmente se están publicando gratis muchísimas tecnologías, y se siente una libertad totalmente distinta al enfoque cerrado de OpenAI

    • Incluso después de DeepSeekR1, la velocidad de avance de los modelos chinos como v3-0324, v3.1, v3.1-terminus y v3.2-speciale es impresionante
      Si además se incluyen GLM 4.7 flash, Minimax-M2 y la serie Qwen, la variedad es enorme
      Yo cancelé mis suscripciones a OpenAI y Anthropic hace 2 años y no las extraño para nada
    • No es casualidad. Las empresas chinas suelen hacer grandes lanzamientos antes del Año Nuevo Lunar, así que es probable que salga más antes del 17 de febrero
    • Me da curiosidad por qué publican gratis un modelo tan enorme. Me hace preguntarme cuál es el modelo de negocio
    • Creo que Deepseek en realidad fue un proyecto centrado en marketing
      Incluso en Reddit seguían apareciendo de forma rara comentarios “pro-deepseek”. Casi parecía marketing al estilo Apple
    • Pero estos modelos también pueden ser mal utilizados para ataques de seguridad o ataques biológicos
      Las empresas chinas seguramente no están liberando esto por amor a la humanidad
  • Comparten sitios útiles para comparar varios modelos

  • Kimi K2.5 ejecuta en paralelo hasta 100 subagentes y procesa en paralelo hasta 1,500 llamadas a herramientas
    Resulta interesante que no solo haga llamadas de herramientas, sino que haya aprendido mediante aprendizaje por refuerzo (RL) la propia orquestación de agentes

    • Pero 1,500 llamadas a herramientas son una pesadilla de estructura de costos. Con apenas unas decenas de pasos ya se destruye el margen, así que sin capital de VC parece insostenible
    • Me pregunto si “self-direct an agent swarm” es una función interna del modelo o si está implementado a nivel de IDE/servicio
      Normalmente el modelo emite algo como “call tool X”, el IDE lo ejecuta y luego le devuelve el resultado
    • Los agentes paralelos son un truco simple pero potente
      Yo estoy viendo un efecto parecido con TeammateTool de Claude Code
  • Además de K2.5, Moonshot AI también presentó Kimi Code
    Es un agente de codificación para terminal que evolucionó desde el Kimi CLI existente; lo probé desde el mes pasado y es bastante estable
    GitHub: MoonshotAI/kimi-cli

    • No es solo un agente de codificación, también cumple el rol de shell
      Tiene un hook de zsh que permite cambiar al modo agente desde cualquier lugar
    • Me pregunto si soporta la función swarm y también si soporta Opencode
    • También quisiera saber cómo rinde comparado con CC
  • Me parece interesante que K2.5 haya sido entrenado para crear subagentes automáticamente y armar un swarm
    Es similar a los subagentes dinámicos de Claude Code, pero puede manejar de forma autónoma muchos más agentes
    Me da curiosidad si Claude también estará haciendo un entrenamiento parecido y si lo mostrarán en la próxima versión

  • Últimamente los modelos chinos están tomando a Claude Opus como referencia para sus benchmarks
    Tanto Qwen3 max thinking como Kimi K2.5 se comparan con Opus y no con Sonnet. Lo están alcanzando casi al mismo ritmo

    • En clocks.brianmoore.com, K2 es uno de los pocos modelos que pasó perfectamente la prueba del reloj
    • Los laboratorios chinos siguen el patrón de destilar (distill) modelos SOTA occidentales y alcanzarlos en unos pocos meses
    • En benchmarks se ven parecidos, pero en usabilidad real los modelos de Anthropic todavía van por delante
    • Al final lo más importante son los escenarios de uso reales. Solo con puntajes de benchmark es difícil juzgar
  • Kimi K2 tenía fama de tener una alta inteligencia emocional (emotional intelligence)
    Me pregunto si K2.5 mantendrá esa característica

    • Yo también tuve esa impresión. De verdad me intriga cómo lograron implementar ese tipo de respuesta emocional
    • Pienso probarlo en mafia-arena.com
    • Aunque es subjetivo, me pareció más humano que Gemini 3, GPT 5.2 y Opus 4.5
  • La puntuación de CCP-bench mejoró mucho en K2.5
    Ver imagen relacionada

  • Felicitaciones al equipo de Kimi
    Pero sigo teniendo curiosidad por por qué Claude sigue siendo el número 1 en codificación. Quisiera saber si es por entrenamiento especializado en código o por la calidad general del aprendizaje
    Ojalá alguien le gane a Opus 4.5 en coding

    • La diferencia en benchmarks casi no significa nada. El ruido del entorno real de programación es mucho mayor
      De hecho, a veces los modelos están sobreajustados a los benchmarks
      He usado tanto GPT5.2 como Opus 4.5 y, en rendimiento real de programación, son casi iguales
      Además, K2.5 cuesta alrededor de 1/5 de los modelos top, así que genera expectativas
    • Yo uso Gemini Pro en lugar de Opus, porque reestructura mejor el código y refleja mejor los requisitos
      Opus suele meter abstracciones innecesarias o hardcodeo
    • Gemini 3 Pro es especialmente mucho mejor en codebases grandes
    • Opus 4.5 es un modelo lanzado hace dos meses, y es el resultado de que Anthropic se haya enfocado especialmente en rendimiento de codificación