Informe técnico de Kimi K2.5 [PDF] - Un modelo multimodal abierto hacia la inteligencia agéntica visual

(github.com/MoonshotAI)

5 puntos por GN⁺ 2026-02-01 | Aún no hay comentarios. | Compartir por WhatsApp

Kimi K2.5, presentado por Moonshot AI, es un modelo agéntico multimodal open source optimizado conjuntamente para texto y visión, capaz de manejar de forma integral razonamiento, programación, visión y tareas de agentes dentro de un solo modelo
Para superar las limitaciones de los agentes secuenciales existentes, introduce la orquestación paralela de agentes Agent Swarm, que descompone y ejecuta tareas complejas al mismo tiempo
Presenta comparativas de rendimiento frente a modelos comerciales y open source en una amplia evaluación de benchmarks que incluye imágenes, video, documentos, web y entornos de sistema operativo
Confirma experimentalmente un efecto de transferencia entre modalidades en el que el aprendizaje por refuerzo visual también mejora el rendimiento de razonamiento en texto
Publica los checkpoints entrenados con el objetivo de ampliar la investigación en sistemas agénticos de propósito general y su uso práctico

Panorama general y planteamiento del problema

Los modelos de lenguaje de gran escala están evolucionando más allá del simple pregunta-respuesta hacia una inteligencia agéntica capaz de usar herramientas y realizar planificación a largo plazo
Los modelos multimodales existentes suelen partir de un diseño centrado en texto al que se le agrega visión, lo que genera conflictos entre modalidades y límites de generalización
En tareas reales complejas, la latencia causada por la ejecución secuencial de agentes y las limitaciones de contexto actúan como cuellos de botella principales

Diseño central de Kimi K2.5

Refuerza la alineación desde el inicio del entrenamiento mediante preentrenamiento conjunto de texto y visión, mezclando ambas modalidades en una proporción fija
Usa el encoder visual MoonViT-3D para procesar con la misma arquitectura imágenes en resolución original y videos de larga duración
Adopta una estrategia de zero-vision SFT, donde el rendimiento se activa incluso sin SFT exclusivo para visión
Mejora de forma conjunta conocimiento, razonamiento, programación y capacidades agénticas mediante aprendizaje por refuerzo multimodal conjunto organizado por unidades de capacidad

Arquitectura Agent Swarm

Un orquestador central descompone el trabajo en subproblemas paralelizables y genera dinámicamente subagentes especializados
Cada subagente trabaja en un contexto local independiente, evitando la contaminación del contexto global
Implementa sharding de contexto al fusionar selectivamente solo resultados resumidos en lugar del historial completo
Aprende a minimizar la latencia mediante prompts de entrenamiento que inducen ejecución paralela y la métrica Critical Steps

Configuración y escala de entrenamiento

El modelo base Kimi K2 fue preentrenado con una arquitectura MoE de 1 billón de parámetros sobre 15 billones de tokens de texto
Soporta longitud de contexto de hasta 256k mediante entrenamiento conjunto de contexto largo
Incluye datos multimodales diversos como imágenes, video, OCR, documentos y capturas de pantalla de SO

Evaluación y rendimiento: resumen centrado en la comparación de modelos principales

Kimi K2.5 fue evaluado en condiciones equivalentes frente a modelos comerciales (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) y modelos open source (DeepSeek-V3.2, Qwen3-VL-235B)
Todas las evaluaciones se realizaron con temperature 1.0, top-p 0.95 y longitud máxima de contexto de 256k
Benchmarks de razonamiento y conocimiento general
- En AIME 2025, Kimi K2.5 logró 96.1, superando a Claude Opus 4.5 (92.8) y Gemini 3 Pro (95.0), y acercándose al rendimiento de GPT-5.2 (100)
- También mantuvo puntajes más altos que Claude Opus 4.5 y Qwen3-VL en HMMT 2025 e IMO-AnswerBench
- En GPQA-Diamond obtuvo 87.6, similar a Claude Opus 4.5 (87.0) y superior a los modelos open source comparados
- En LongBench v2, Gemini 3 Pro registró el mejor puntaje, pero Kimi K2.5 mostró resultados competitivos frente a DeepSeek-V3.2 y Qwen3-VL
Programación e ingeniería de software
- En SWE-Bench Verified, Kimi K2.5 obtuvo 76.8, similar a DeepSeek-V3.2 (76.2) y por encima de Qwen3-VL (73.1)
- En SWE-Bench Pro y Multilingual, quedó por debajo de los modelos comerciales, pero se mantuvo entre los mejores dentro del grupo open source
- En LiveCodeBench v6, logró 85.0, superando a Claude Opus 4.5 (82.2) y Qwen3-VL (83.3)
- En PaperBench(CodeDev) y CyberGym, los modelos comerciales siguieron liderando, pero Kimi K2.5 mostró un rendimiento estable a nivel utilizable en escenarios reales
Tareas agénticas y basadas en búsqueda
- En BrowseComp, alcanzó 60.6 con agente único, superando ampliamente a Claude Opus 4.5 (37.0)
- Con Agent Swarm, llegó a 78.4 en BrowseComp y 79.0 en WideSearch, mostrando una mejora clara frente al agente único
- En WideSearch, Claude Opus 4.5 obtuvo una puntuación más alta en modo de agente único, pero Kimi K2.5 fue superior en la configuración de agentes paralelos
- También registró resultados cercanos a los modelos comerciales en DeepSearchQA y la familia FinSearchComp
Comprensión visual, documental y de video
- En MMMU-Pro, OCRBench y OmniDocBench 1.5, se compara directamente con Qwen3-VL y en general mantiene competitividad en razonamiento visual y comprensión de documentos
- GPT-5.2 presentó en algunas evaluaciones visuales una tasa de fallo de salida de alrededor del 10%, por lo que fue calificado de forma conservadora
- En benchmarks de video corto y largo, Kimi K2.5 mostró un rendimiento consistente, con resultados estables frente a modelos centrados en imagen única
Evaluación general
- Aunque Kimi K2.5 no alcanza en algunos indicadores a los mejores modelos comerciales, entre los modelos multimodales y agénticos open source ofrece el rendimiento más amplio y equilibrado
- En particular, al aplicar Agent Swarm se observa una ventaja clara en tareas agénticas y de búsqueda
- Al abarcar razonamiento, programación, visión y agentes dentro de un solo modelo abierto, se perfila como un modelo agéntico de propósito general realmente utilizable, no solo experimental

Limitaciones y observaciones

Algunos modelos comerciales presentaron tasas de fallo de salida en benchmarks visuales, por lo que recibieron puntajes conservadores
En tareas agénticas largas, la estrategia de gestión de contexto produce diferencias importantes de rendimiento
Algunos benchmarks de alto costo fueron excluidos de la evaluación debido a problemas de estabilidad de API

Publicación y uso

Se publican como open source los checkpoints post-training de Kimi K2.5
Es un modelo base reutilizable para sistemas agénticos de propósito general, investigación multimodal y cargas reales de automatización
El enfoque que no separa texto y visión, junto con la estructura de agentes paralelos, podría convertirse en una ruta práctica hacia la General Agentic Intelligence

Informe técnico de Kimi K2.5 [PDF] - Un modelo multimodal abierto hacia la inteligencia agéntica visual

Panorama general y planteamiento del problema

Diseño central de Kimi K2.5

Arquitectura Agent Swarm

Configuración y escala de entrenamiento

Evaluación y rendimiento: resumen centrado en la comparación de modelos principales

Benchmarks de razonamiento y conocimiento general

Programación e ingeniería de software

Tareas agénticas y basadas en búsqueda

Comprensión visual, documental y de video

Evaluación general

Limitaciones y observaciones

Publicación y uso

Lecturas relacionadas

Aún no hay comentarios.