Modelo de razonamiento MiMo de Xiaomi
(github.com/XiaomiMiMo)- MiMo-7B es una serie de modelos desarrollada para aprovechar al máximo el potencial de razonamiento de los modelos de lenguaje
- Ofrece un rendimiento sobresaliente en tareas de razonamiento matemático y de código mediante estrategias de preentrenamiento y postentrenamiento
- A pesar de ser un modelo pequeño, MiMo-7B muestra un rendimiento comparable al de modelos más grandes
- Se ofrece como código abierto, con potencial para contribuir a la comunidad
- A través de su infraestructura de RL, mejora de forma significativa la velocidad de entrenamiento y validación
I. Introducción
- La mayoría de las investigaciones exitosas en aprendizaje por refuerzo (RL) dependen de modelos grandes, y mejorar al mismo tiempo las capacidades de matemáticas y código en modelos pequeños es difícil
- MiMo-7B es un modelo entrenado desde cero para tareas de razonamiento, con un potencial de razonamiento que supera al de modelos más grandes
- La serie MiMo-7B se ofrece como código abierto y puede contribuir a que la comunidad desarrolle modelos de lenguaje con fuerte capacidad de razonamiento
🌟 Contenido principal
-
Preentrenamiento: modelo base para razonamiento
- Se optimizó el pipeline de preprocesamiento de datos para aumentar la densidad de patrones de razonamiento
- Se utilizaron varias estrategias para generar diversos datos sintéticos de razonamiento
- Se incluyó la predicción de múltiples tokens como objetivo adicional de entrenamiento para mejorar el rendimiento del modelo
-
Receta de postentrenamiento: modelo de razonamiento pionero
- Se usaron 130K problemas de matemáticas y código como datos de entrenamiento de RL
- Se introdujo una recompensa de código basada en la dificultad de prueba para realizar la optimización de políticas de forma efectiva
- Se implementó una estrategia de remuestreo de datos para problemas fáciles con el fin de estabilizar las actualizaciones de política
-
Infraestructura de RL
- Se desarrolló Seamless Rollout Engine para acelerar el entrenamiento y la validación de RL
- Se dio soporte a MTP en vLLM y se reforzó la robustez del motor de inferencia del sistema de RL
II. Detalles del modelo
- La serie MiMo-7B ofrece varios checkpoints de modelo y puede descargarse desde HuggingFace
III. Resultados de evaluación
- MiMo-7B-RL muestra un rendimiento sobresaliente en tareas de razonamiento matemático y de código
- Logra resultados competitivos en diversos benchmarks
IV. Despliegue
- Soporte de inferencia a través de vLLM y HuggingFace
- Puede ofrecer un rendimiento óptimo usando el entorno recomendado y los prompts sugeridos
V. Cita
- Se proporciona información de cita para MiMo-7B
VI. Contacto
- Para consultas, se puede escribir a mimo@xiaomi.com o usar GitHub Issues
1 comentarios
Opiniones en Hacker News
Me pareció interesante cómo el paper maneja la etapa de aprendizaje por refuerzo (RL) para datos de código. Entrenan tareas de generación de código que pueden resolverse ejecutando pruebas unitarias. Me pregunto si otros modelos también realizan esta etapa de entrenamiento
Me pregunto por qué en China hay tantos modelos de IA con prioridad en inglés. No sé si es que no les interesa su propia población, o si creen que si lanzan primero un modelo centrado en chino no recibirán atención en Occidente
El rendimiento de programación del modelo de 7B es muy sólido. Estoy usando Gemini Pro 2.5 y obtuvo 67.8 puntos, y este modelo obtuvo 57.8, quedando muy cerca de los 60.6 de Gemini 2.5 Flash
MiMo-7B afirma superar a modelos más grandes como Qwen-32B y rendir al nivel de OpenAI o1-mini en benchmarks de matemáticas/código. Me pregunto si esto es una señal de que la optimización de preentrenamiento + RLHF está empezando a superar a la escala, o si simplemente nos hemos vuelto mejores para hacer benchmarks de capacidades estrechas
Es curioso ver benchmarks que omiten a modelos de máximo rendimiento como O3. En este momento es el mejor modelo en muchos benchmarks. También están Gemini Pro/Claude 3.7
Cuando se usan archivos gguf en ollama, me pregunto si normalmente crean un modelfile para usar con un modelo nuevo, o si simplemente esperan que ollama base funcione con el modelo nuevo
En el README solo dice "RL" y no especifica qué tipo de RL se usó. A los investigadores: sé que están ocupados, pero ojalá no omitieran este tipo de detalles
Lo probé un poco y en general se siente bastante sólido. El tiempo de espera es considerable por el largo tiempo de razonamiento, pero tarda incluso más que modelos más grandes como el reciente qwen moe
Me pregunto si usarán este modelo como asistente de IA en los teléfonos de la serie Xiaomi 15. Probablemente sí. No tengo claro qué esperar
Wow. Excelentes benchmarks. Tengo ganas de conversar con este modelo