MiMo-V2.5 — el modelo de IA omnimodal de código abierto de Xiaomi

(huggingface.co)

7 puntos por xguru 23 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp

Un modelo nativamente omnimoDal que procesa de forma integrada texto, imágenes, video y audio dentro de una arquitectura única, especializado en tareas de agentes
Con licencia MIT, permite distribución comercial y fine-tuning sin necesidad de permisos adicionales
Usa una arquitectura Sparse MoE para activar solo 15B de un total de 310B parámetros, lo que permite una inferencia eficiente (la versión Pro es 1.02T/42B)
Hybrid Attention (SWA + GA en proporción 5:1, ventana de 128) reduce aproximadamente 6 veces el almacenamiento de KV-cache y al mismo tiempo soporta hasta 1M tokens de contexto
Incorpora un encoder de visión dedicado (ViT de 729M parámetros, atención híbrida por ventanas) y un encoder de audio (261M parámetros, basado en MiMo-Audio-Tokenizer)
Un módulo de Multi-Token Prediction (MTP) de 3 capas acelera la inferencia basada en speculative decoding y mejora la eficiencia del entrenamiento RL
Fue entrenado con un total aproximado de 48T tokens en precisión mixta FP8, y en la etapa de posprocesamiento aplica SFT, RL de agentes a gran escala y Multi-Teacher On-Policy Distillation (MOPD) para reforzar el rendimiento en benchmarks de agentes y multimodales
- Pipeline de 5 etapas (preentrenamiento de texto → calentamiento del proyector → preentrenamiento multimodal → SFT/posprocesamiento de agentes → RL/MOPD)
Compatible con SGLang (cuantización FP8, paralelismo dp/tp) y con la distribución oficial de vLLM
Disponible en dos versiones: Base (256K) y Full (1M)

MiMo-V2.5 — el modelo de IA omnimodal de código abierto de Xiaomi

Lecturas relacionadas

Aún no hay comentarios.