5 puntos por GN⁺ 2026-02-01 | Aún no hay comentarios. | Compartir por WhatsApp
  • Kimi K2.5, presentado por Moonshot AI, es un modelo agéntico multimodal open source optimizado conjuntamente para texto y visión, capaz de manejar de forma integral razonamiento, programación, visión y tareas de agentes dentro de un solo modelo
  • Para superar las limitaciones de los agentes secuenciales existentes, introduce la orquestación paralela de agentes Agent Swarm, que descompone y ejecuta tareas complejas al mismo tiempo
  • Presenta comparativas de rendimiento frente a modelos comerciales y open source en una amplia evaluación de benchmarks que incluye imágenes, video, documentos, web y entornos de sistema operativo
  • Confirma experimentalmente un efecto de transferencia entre modalidades en el que el aprendizaje por refuerzo visual también mejora el rendimiento de razonamiento en texto
  • Publica los checkpoints entrenados con el objetivo de ampliar la investigación en sistemas agénticos de propósito general y su uso práctico

Panorama general y planteamiento del problema

  • Los modelos de lenguaje de gran escala están evolucionando más allá del simple pregunta-respuesta hacia una inteligencia agéntica capaz de usar herramientas y realizar planificación a largo plazo
  • Los modelos multimodales existentes suelen partir de un diseño centrado en texto al que se le agrega visión, lo que genera conflictos entre modalidades y límites de generalización
  • En tareas reales complejas, la latencia causada por la ejecución secuencial de agentes y las limitaciones de contexto actúan como cuellos de botella principales

Diseño central de Kimi K2.5

  • Refuerza la alineación desde el inicio del entrenamiento mediante preentrenamiento conjunto de texto y visión, mezclando ambas modalidades en una proporción fija
  • Usa el encoder visual MoonViT-3D para procesar con la misma arquitectura imágenes en resolución original y videos de larga duración
  • Adopta una estrategia de zero-vision SFT, donde el rendimiento se activa incluso sin SFT exclusivo para visión
  • Mejora de forma conjunta conocimiento, razonamiento, programación y capacidades agénticas mediante aprendizaje por refuerzo multimodal conjunto organizado por unidades de capacidad

Arquitectura Agent Swarm

  • Un orquestador central descompone el trabajo en subproblemas paralelizables y genera dinámicamente subagentes especializados
  • Cada subagente trabaja en un contexto local independiente, evitando la contaminación del contexto global
  • Implementa sharding de contexto al fusionar selectivamente solo resultados resumidos en lugar del historial completo
  • Aprende a minimizar la latencia mediante prompts de entrenamiento que inducen ejecución paralela y la métrica Critical Steps

Configuración y escala de entrenamiento

  • El modelo base Kimi K2 fue preentrenado con una arquitectura MoE de 1 billón de parámetros sobre 15 billones de tokens de texto
  • Soporta longitud de contexto de hasta 256k mediante entrenamiento conjunto de contexto largo
  • Incluye datos multimodales diversos como imágenes, video, OCR, documentos y capturas de pantalla de SO

Evaluación y rendimiento: resumen centrado en la comparación de modelos principales

  • Kimi K2.5 fue evaluado en condiciones equivalentes frente a modelos comerciales (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) y modelos open source (DeepSeek-V3.2, Qwen3-VL-235B)
  • Todas las evaluaciones se realizaron con temperature 1.0, top-p 0.95 y longitud máxima de contexto de 256k
  • Benchmarks de razonamiento y conocimiento general

    • En AIME 2025, Kimi K2.5 logró 96.1, superando a Claude Opus 4.5 (92.8) y Gemini 3 Pro (95.0), y acercándose al rendimiento de GPT-5.2 (100)
    • También mantuvo puntajes más altos que Claude Opus 4.5 y Qwen3-VL en HMMT 2025 e IMO-AnswerBench
    • En GPQA-Diamond obtuvo 87.6, similar a Claude Opus 4.5 (87.0) y superior a los modelos open source comparados
    • En LongBench v2, Gemini 3 Pro registró el mejor puntaje, pero Kimi K2.5 mostró resultados competitivos frente a DeepSeek-V3.2 y Qwen3-VL
  • Programación e ingeniería de software

    • En SWE-Bench Verified, Kimi K2.5 obtuvo 76.8, similar a DeepSeek-V3.2 (76.2) y por encima de Qwen3-VL (73.1)
    • En SWE-Bench Pro y Multilingual, quedó por debajo de los modelos comerciales, pero se mantuvo entre los mejores dentro del grupo open source
    • En LiveCodeBench v6, logró 85.0, superando a Claude Opus 4.5 (82.2) y Qwen3-VL (83.3)
    • En PaperBench(CodeDev) y CyberGym, los modelos comerciales siguieron liderando, pero Kimi K2.5 mostró un rendimiento estable a nivel utilizable en escenarios reales
  • Tareas agénticas y basadas en búsqueda

    • En BrowseComp, alcanzó 60.6 con agente único, superando ampliamente a Claude Opus 4.5 (37.0)
    • Con Agent Swarm, llegó a 78.4 en BrowseComp y 79.0 en WideSearch, mostrando una mejora clara frente al agente único
    • En WideSearch, Claude Opus 4.5 obtuvo una puntuación más alta en modo de agente único, pero Kimi K2.5 fue superior en la configuración de agentes paralelos
    • También registró resultados cercanos a los modelos comerciales en DeepSearchQA y la familia FinSearchComp
  • Comprensión visual, documental y de video

    • En MMMU-Pro, OCRBench y OmniDocBench 1.5, se compara directamente con Qwen3-VL y en general mantiene competitividad en razonamiento visual y comprensión de documentos
    • GPT-5.2 presentó en algunas evaluaciones visuales una tasa de fallo de salida de alrededor del 10%, por lo que fue calificado de forma conservadora
    • En benchmarks de video corto y largo, Kimi K2.5 mostró un rendimiento consistente, con resultados estables frente a modelos centrados en imagen única
  • Evaluación general

    • Aunque Kimi K2.5 no alcanza en algunos indicadores a los mejores modelos comerciales, entre los modelos multimodales y agénticos open source ofrece el rendimiento más amplio y equilibrado
    • En particular, al aplicar Agent Swarm se observa una ventaja clara en tareas agénticas y de búsqueda
    • Al abarcar razonamiento, programación, visión y agentes dentro de un solo modelo abierto, se perfila como un modelo agéntico de propósito general realmente utilizable, no solo experimental

Limitaciones y observaciones

  • Algunos modelos comerciales presentaron tasas de fallo de salida en benchmarks visuales, por lo que recibieron puntajes conservadores
  • En tareas agénticas largas, la estrategia de gestión de contexto produce diferencias importantes de rendimiento
  • Algunos benchmarks de alto costo fueron excluidos de la evaluación debido a problemas de estabilidad de API

Publicación y uso

  • Se publican como open source los checkpoints post-training de Kimi K2.5
  • Es un modelo base reutilizable para sistemas agénticos de propósito general, investigación multimodal y cargas reales de automatización
  • El enfoque que no separa texto y visión, junto con la estructura de agentes paralelos, podría convertirse en una ruta práctica hacia la General Agentic Intelligence

Aún no hay comentarios.

Aún no hay comentarios.