- Un modelo nativamente omnimoDal que procesa de forma integrada texto, imágenes, video y audio dentro de una arquitectura única, especializado en tareas de agentes
- Con licencia MIT, permite distribución comercial y fine-tuning sin necesidad de permisos adicionales
- Usa una arquitectura Sparse MoE para activar solo 15B de un total de 310B parámetros, lo que permite una inferencia eficiente (la versión Pro es 1.02T/42B)
- Hybrid Attention (SWA + GA en proporción 5:1, ventana de 128) reduce aproximadamente 6 veces el almacenamiento de KV-cache y al mismo tiempo soporta hasta 1M tokens de contexto
- Incorpora un encoder de visión dedicado (ViT de 729M parámetros, atención híbrida por ventanas) y un encoder de audio (261M parámetros, basado en MiMo-Audio-Tokenizer)
- Un módulo de Multi-Token Prediction (MTP) de 3 capas acelera la inferencia basada en speculative decoding y mejora la eficiencia del entrenamiento RL
- Fue entrenado con un total aproximado de 48T tokens en precisión mixta FP8, y en la etapa de posprocesamiento aplica SFT, RL de agentes a gran escala y Multi-Teacher On-Policy Distillation (MOPD) para reforzar el rendimiento en benchmarks de agentes y multimodales
- Pipeline de 5 etapas (preentrenamiento de texto → calentamiento del proyector → preentrenamiento multimodal → SFT/posprocesamiento de agentes → RL/MOPD)
- Compatible con SGLang (cuantización FP8, paralelismo dp/tp) y con la distribución oficial de vLLM
- Disponible en dos versiones: Base (256K) y Full (1M)
Aún no hay comentarios.