7 puntos por xguru 20 일 전 | 2 comentarios | Compartir por WhatsApp
  • Un modelo omnimodal nativo que procesa de forma unificada texto, imagen, video y audio en una arquitectura única, especializado en tareas de agentes
  • Licencia MIT: permite distribución comercial y fine-tuning sin restricciones, sin necesidad de autorización adicional
  • Arquitectura Sparse MoE que activa solo 15B de un total de 310B de parámetros para una inferencia eficiente (la versión Pro es 1.02T/42B)
  • Hybrid Attention (SWA + GA en proporción 5:1, ventana de 128) reduce aproximadamente 6 veces el almacenamiento de KV-cache y admite hasta 1M tokens de contexto
  • Incorpora un encoder de visión dedicado (ViT de 729M de parámetros, atención híbrida por ventanas) y un encoder de audio (261M de parámetros, basado en MiMo-Audio-Tokenizer)
  • El módulo Multi-Token Prediction (MTP) de 3 capas acelera la inferencia basada en speculative decoding y mejora la eficiencia del entrenamiento RL
  • Fue entrenado con un total aproximado de 48T tokens usando precisión mixta FP8, y en la etapa de postprocesamiento aplica SFT, RL de agentes a gran escala y Multi-Teacher On-Policy Distillation (MOPD) para reforzar el rendimiento en benchmarks de agentes y multimodales
    • Pipeline de 5 etapas (preentrenamiento de texto → warm-up del proyector → preentrenamiento multimodal → SFT/postprocesamiento de agentes → RL/MOPD)
  • Compatible con SGLang (cuantización FP8, paralelismo dp/tp) y con la distribución oficial de vLLM
  • Disponible en dos versiones: Base (256K) y Full (1M)

2 comentarios

 
xguru 20 일 전

Esto lo probaron en VentureBeat y dicen que es bastante adecuado para OpenClaw.
https://venturebeat.com/ai/…

  • En el benchmark ClawEval, el modelo Pro registró una tasa de éxito de 63.8%, liderando entre los modelos de código abierto
  • Logró resultados equivalentes frente a Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro y OpenAI GPT-5.4 usando 40~60% menos tokens
  • MiMo-V2.5 ("Omni") es un modelo especializado multimodal nativo que integra procesamiento de visión, audio y texto
  • MiMo-V2.5-Pro ("Agent") está especializado en "coherencia de largo horizonte (long-horizon coherence)" y en ingeniería de software compleja
  • El modelo Pro obtuvo 1581 puntos en el benchmark GDPVal-AA(Elo), superando a Kimi K2.6 y GLM 5.1
  • A diferencia de muchos modelos "abiertos" que incluyen políticas restrictivas de "Acceptable Use", MiMo-V2.5 se publica bajo licencia MIT
    • No requiere aprobación: se puede distribuir comercialmente sin permiso explícito de Xiaomi
    • Libertad de entrenamiento continuo: se puede afinar con datos propios y publicar pesos derivados
    • Uso comercial sin restricciones: no hay topes de ingresos ni límites de cantidad de usuarios, como suele pasar con licencias comunitarias
  • El líder del proyecto es Fuli Luo (exmiembro clave de DeepSeek)

    "El valor de un modelo no se mide por su ranking, sino por los problemas que resuelve"

 
cosine20 18 일 전

Considerando las principales áreas de negocio de Xiaomi, parece posible que también lo hayan creado teniendo en mente agentes como OpenClaw y Hermes.