- Kimi K2.5, presentado por Moonshot AI, es un modelo agéntico multimodal open source optimizado conjuntamente para texto y visión, capaz de manejar de forma integral razonamiento, programación, visión y tareas de agentes dentro de un solo modelo
- Para superar las limitaciones de los agentes secuenciales existentes, introduce la orquestación paralela de agentes Agent Swarm, que descompone y ejecuta tareas complejas al mismo tiempo
- Presenta comparativas de rendimiento frente a modelos comerciales y open source en una amplia evaluación de benchmarks que incluye imágenes, video, documentos, web y entornos de sistema operativo
- Confirma experimentalmente un efecto de transferencia entre modalidades en el que el aprendizaje por refuerzo visual también mejora el rendimiento de razonamiento en texto
- Publica los checkpoints entrenados con el objetivo de ampliar la investigación en sistemas agénticos de propósito general y su uso práctico
Panorama general y planteamiento del problema
- Los modelos de lenguaje de gran escala están evolucionando más allá del simple pregunta-respuesta hacia una inteligencia agéntica capaz de usar herramientas y realizar planificación a largo plazo
- Los modelos multimodales existentes suelen partir de un diseño centrado en texto al que se le agrega visión, lo que genera conflictos entre modalidades y límites de generalización
- En tareas reales complejas, la latencia causada por la ejecución secuencial de agentes y las limitaciones de contexto actúan como cuellos de botella principales
Diseño central de Kimi K2.5
- Refuerza la alineación desde el inicio del entrenamiento mediante preentrenamiento conjunto de texto y visión, mezclando ambas modalidades en una proporción fija
- Usa el encoder visual MoonViT-3D para procesar con la misma arquitectura imágenes en resolución original y videos de larga duración
- Adopta una estrategia de zero-vision SFT, donde el rendimiento se activa incluso sin SFT exclusivo para visión
- Mejora de forma conjunta conocimiento, razonamiento, programación y capacidades agénticas mediante aprendizaje por refuerzo multimodal conjunto organizado por unidades de capacidad
Arquitectura Agent Swarm
- Un orquestador central descompone el trabajo en subproblemas paralelizables y genera dinámicamente subagentes especializados
- Cada subagente trabaja en un contexto local independiente, evitando la contaminación del contexto global
- Implementa sharding de contexto al fusionar selectivamente solo resultados resumidos en lugar del historial completo
- Aprende a minimizar la latencia mediante prompts de entrenamiento que inducen ejecución paralela y la métrica Critical Steps
Configuración y escala de entrenamiento
- El modelo base Kimi K2 fue preentrenado con una arquitectura MoE de 1 billón de parámetros sobre 15 billones de tokens de texto
- Soporta longitud de contexto de hasta 256k mediante entrenamiento conjunto de contexto largo
- Incluye datos multimodales diversos como imágenes, video, OCR, documentos y capturas de pantalla de SO
Evaluación y rendimiento: resumen centrado en la comparación de modelos principales
- Kimi K2.5 fue evaluado en condiciones equivalentes frente a modelos comerciales (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) y modelos open source (DeepSeek-V3.2, Qwen3-VL-235B)
- Todas las evaluaciones se realizaron con temperature 1.0, top-p 0.95 y longitud máxima de contexto de 256k
-
Benchmarks de razonamiento y conocimiento general
- En AIME 2025, Kimi K2.5 logró 96.1, superando a Claude Opus 4.5 (92.8) y Gemini 3 Pro (95.0), y acercándose al rendimiento de GPT-5.2 (100)
- También mantuvo puntajes más altos que Claude Opus 4.5 y Qwen3-VL en HMMT 2025 e IMO-AnswerBench
- En GPQA-Diamond obtuvo 87.6, similar a Claude Opus 4.5 (87.0) y superior a los modelos open source comparados
- En LongBench v2, Gemini 3 Pro registró el mejor puntaje, pero Kimi K2.5 mostró resultados competitivos frente a DeepSeek-V3.2 y Qwen3-VL
-
Programación e ingeniería de software
- En SWE-Bench Verified, Kimi K2.5 obtuvo 76.8, similar a DeepSeek-V3.2 (76.2) y por encima de Qwen3-VL (73.1)
- En SWE-Bench Pro y Multilingual, quedó por debajo de los modelos comerciales, pero se mantuvo entre los mejores dentro del grupo open source
- En LiveCodeBench v6, logró 85.0, superando a Claude Opus 4.5 (82.2) y Qwen3-VL (83.3)
- En PaperBench(CodeDev) y CyberGym, los modelos comerciales siguieron liderando, pero Kimi K2.5 mostró un rendimiento estable a nivel utilizable en escenarios reales
-
Tareas agénticas y basadas en búsqueda
- En BrowseComp, alcanzó 60.6 con agente único, superando ampliamente a Claude Opus 4.5 (37.0)
- Con Agent Swarm, llegó a 78.4 en BrowseComp y 79.0 en WideSearch, mostrando una mejora clara frente al agente único
- En WideSearch, Claude Opus 4.5 obtuvo una puntuación más alta en modo de agente único, pero Kimi K2.5 fue superior en la configuración de agentes paralelos
- También registró resultados cercanos a los modelos comerciales en DeepSearchQA y la familia FinSearchComp
-
Comprensión visual, documental y de video
- En MMMU-Pro, OCRBench y OmniDocBench 1.5, se compara directamente con Qwen3-VL y en general mantiene competitividad en razonamiento visual y comprensión de documentos
- GPT-5.2 presentó en algunas evaluaciones visuales una tasa de fallo de salida de alrededor del 10%, por lo que fue calificado de forma conservadora
- En benchmarks de video corto y largo, Kimi K2.5 mostró un rendimiento consistente, con resultados estables frente a modelos centrados en imagen única
-
Evaluación general
- Aunque Kimi K2.5 no alcanza en algunos indicadores a los mejores modelos comerciales, entre los modelos multimodales y agénticos open source ofrece el rendimiento más amplio y equilibrado
- En particular, al aplicar Agent Swarm se observa una ventaja clara en tareas agénticas y de búsqueda
- Al abarcar razonamiento, programación, visión y agentes dentro de un solo modelo abierto, se perfila como un modelo agéntico de propósito general realmente utilizable, no solo experimental
Limitaciones y observaciones
- Algunos modelos comerciales presentaron tasas de fallo de salida en benchmarks visuales, por lo que recibieron puntajes conservadores
- En tareas agénticas largas, la estrategia de gestión de contexto produce diferencias importantes de rendimiento
- Algunos benchmarks de alto costo fueron excluidos de la evaluación debido a problemas de estabilidad de API
Publicación y uso
- Se publican como open source los checkpoints post-training de Kimi K2.5
- Es un modelo base reutilizable para sistemas agénticos de propósito general, investigación multimodal y cargas reales de automatización
- El enfoque que no separa texto y visión, junto con la estructura de agentes paralelos, podría convertirse en una ruta práctica hacia la General Agentic Intelligence
Aún no hay comentarios.