1 puntos por GN⁺ 2025-05-01 | 1 comentarios | Compartir por WhatsApp
  • MiMo-7B es una serie de modelos desarrollada para aprovechar al máximo el potencial de razonamiento de los modelos de lenguaje
  • Ofrece un rendimiento sobresaliente en tareas de razonamiento matemático y de código mediante estrategias de preentrenamiento y postentrenamiento
  • A pesar de ser un modelo pequeño, MiMo-7B muestra un rendimiento comparable al de modelos más grandes
  • Se ofrece como código abierto, con potencial para contribuir a la comunidad
  • A través de su infraestructura de RL, mejora de forma significativa la velocidad de entrenamiento y validación

I. Introducción

  • La mayoría de las investigaciones exitosas en aprendizaje por refuerzo (RL) dependen de modelos grandes, y mejorar al mismo tiempo las capacidades de matemáticas y código en modelos pequeños es difícil
  • MiMo-7B es un modelo entrenado desde cero para tareas de razonamiento, con un potencial de razonamiento que supera al de modelos más grandes
  • La serie MiMo-7B se ofrece como código abierto y puede contribuir a que la comunidad desarrolle modelos de lenguaje con fuerte capacidad de razonamiento

🌟 Contenido principal

  • Preentrenamiento: modelo base para razonamiento

    • Se optimizó el pipeline de preprocesamiento de datos para aumentar la densidad de patrones de razonamiento
    • Se utilizaron varias estrategias para generar diversos datos sintéticos de razonamiento
    • Se incluyó la predicción de múltiples tokens como objetivo adicional de entrenamiento para mejorar el rendimiento del modelo
  • Receta de postentrenamiento: modelo de razonamiento pionero

    • Se usaron 130K problemas de matemáticas y código como datos de entrenamiento de RL
    • Se introdujo una recompensa de código basada en la dificultad de prueba para realizar la optimización de políticas de forma efectiva
    • Se implementó una estrategia de remuestreo de datos para problemas fáciles con el fin de estabilizar las actualizaciones de política
  • Infraestructura de RL

    • Se desarrolló Seamless Rollout Engine para acelerar el entrenamiento y la validación de RL
    • Se dio soporte a MTP en vLLM y se reforzó la robustez del motor de inferencia del sistema de RL

II. Detalles del modelo

  • La serie MiMo-7B ofrece varios checkpoints de modelo y puede descargarse desde HuggingFace

III. Resultados de evaluación

  • MiMo-7B-RL muestra un rendimiento sobresaliente en tareas de razonamiento matemático y de código
  • Logra resultados competitivos en diversos benchmarks

IV. Despliegue

  • Soporte de inferencia a través de vLLM y HuggingFace
  • Puede ofrecer un rendimiento óptimo usando el entorno recomendado y los prompts sugeridos

V. Cita

  • Se proporciona información de cita para MiMo-7B

VI. Contacto

  • Para consultas, se puede escribir a mimo@xiaomi.com o usar GitHub Issues

1 comentarios

 
GN⁺ 2025-05-01
Opiniones en Hacker News
  • Me pareció interesante cómo el paper maneja la etapa de aprendizaje por refuerzo (RL) para datos de código. Entrenan tareas de generación de código que pueden resolverse ejecutando pruebas unitarias. Me pregunto si otros modelos también realizan esta etapa de entrenamiento

    • Datos de código: curaron un conjunto de entrenamiento de alta calidad que incluye datasets de código abierto y un nuevo conjunto de problemas recopilados para ejercicios de programación. Eliminaron los problemas sin casos de prueba. Entre los problemas con solución de referencia, excluyeron los que no pasaban todos los casos de prueba. Los problemas sin solución de referencia se excluyeron si no podían resolverse en 16 rollouts de un modelo avanzado de razonamiento. De forma similar a los datos de matemáticas, usaron la versión SFT de MiMo-7B para filtrar los problemas fáciles que se resolvían perfectamente en los 16 rollouts. Este estricto proceso de depuración produjo 30,000 problemas de código
    • Durante cada iteración de RL, evalúan miles de problemas para calcular la recompensa. Cada problema puede incluir cientos de casos de prueba. Para mejorar la eficiencia del cálculo de recompensas y eliminar el tiempo ocioso de GPU, desarrollaron un entorno de juez en línea capaz de ejecutar en paralelo un volumen muy alto de pruebas unitarias
  • Me pregunto por qué en China hay tantos modelos de IA con prioridad en inglés. No sé si es que no les interesa su propia población, o si creen que si lanzan primero un modelo centrado en chino no recibirán atención en Occidente

  • El rendimiento de programación del modelo de 7B es muy sólido. Estoy usando Gemini Pro 2.5 y obtuvo 67.8 puntos, y este modelo obtuvo 57.8, quedando muy cerca de los 60.6 de Gemini 2.5 Flash

    • Por lo que escuché sobre llama4, me volví escéptico con respecto a los resultados de evaluación, pero habrá que ver dónde se ubica en evaluaciones cerradas. Aun así, es muy impresionante
  • MiMo-7B afirma superar a modelos más grandes como Qwen-32B y rendir al nivel de OpenAI o1-mini en benchmarks de matemáticas/código. Me pregunto si esto es una señal de que la optimización de preentrenamiento + RLHF está empezando a superar a la escala, o si simplemente nos hemos vuelto mejores para hacer benchmarks de capacidades estrechas

  • Es curioso ver benchmarks que omiten a modelos de máximo rendimiento como O3. En este momento es el mejor modelo en muchos benchmarks. También están Gemini Pro/Claude 3.7

  • Cuando se usan archivos gguf en ollama, me pregunto si normalmente crean un modelfile para usar con un modelo nuevo, o si simplemente esperan que ollama base funcione con el modelo nuevo

  • En el README solo dice "RL" y no especifica qué tipo de RL se usó. A los investigadores: sé que están ocupados, pero ojalá no omitieran este tipo de detalles

  • Lo probé un poco y en general se siente bastante sólido. El tiempo de espera es considerable por el largo tiempo de razonamiento, pero tarda incluso más que modelos más grandes como el reciente qwen moe

    • moe parece una mejor compensación en general
  • Me pregunto si usarán este modelo como asistente de IA en los teléfonos de la serie Xiaomi 15. Probablemente sí. No tengo claro qué esperar

  • Wow. Excelentes benchmarks. Tengo ganas de conversar con este modelo

    • Hay un par de cosas que destacan. Primero, el modelo 7B fue entrenado con 25T tokens (!). Eso es entrenamiento a escala Meta. Llama 4 Maverick fue entrenado con alrededor de 22T. (Scout, el modelo más pequeño: 40T)
    • Segundo, es una ruta interesante hacia un modelo de RL con razonamiento incorporado desde el inicio, en lugar de un modelo destilado o una capa de RL para extraer razonamiento de otros modelos. Afirman que así se obtiene mucha eficiencia adicional por parámetro
    • No tengo experiencia con los modelos de Xiaomi, así que soy cauto con este, pero estadísticamente parece un modelo de razonamiento local muy prometedor