- Un modelo omnimodal nativo que procesa de forma unificada texto, imagen, video y audio en una arquitectura única, especializado en tareas de agentes
- Licencia MIT: permite distribución comercial y fine-tuning sin restricciones, sin necesidad de autorización adicional
- Arquitectura Sparse MoE que activa solo 15B de un total de 310B de parámetros para una inferencia eficiente (la versión Pro es 1.02T/42B)
- Hybrid Attention (SWA + GA en proporción 5:1, ventana de 128) reduce aproximadamente 6 veces el almacenamiento de KV-cache y admite hasta 1M tokens de contexto
- Incorpora un encoder de visión dedicado (ViT de 729M de parámetros, atención híbrida por ventanas) y un encoder de audio (261M de parámetros, basado en MiMo-Audio-Tokenizer)
- El módulo Multi-Token Prediction (MTP) de 3 capas acelera la inferencia basada en speculative decoding y mejora la eficiencia del entrenamiento RL
- Fue entrenado con un total aproximado de 48T tokens usando precisión mixta FP8, y en la etapa de postprocesamiento aplica SFT, RL de agentes a gran escala y Multi-Teacher On-Policy Distillation (MOPD) para reforzar el rendimiento en benchmarks de agentes y multimodales
- Pipeline de 5 etapas (preentrenamiento de texto → warm-up del proyector → preentrenamiento multimodal → SFT/postprocesamiento de agentes → RL/MOPD)
- Compatible con SGLang (cuantización FP8, paralelismo dp/tp) y con la distribución oficial de vLLM
- Disponible en dos versiones: Base (256K) y Full (1M)
2 comentarios
Esto lo probaron en VentureBeat y dicen que es bastante adecuado para OpenClaw.
https://venturebeat.com/ai/…
Considerando las principales áreas de negocio de Xiaomi, parece posible que también lo hayan creado teniendo en mente agentes como OpenClaw y Hermes.