MiniMax-M1 de pesos abiertos, modelo de razonamiento de gran escala con atención híbrida

(github.com/MiniMax-AI)

5 puntos por GN⁺ 2025-06-19 | 1 comentarios | Compartir por WhatsApp

MiniMax-M1 es el primer modelo de razonamiento de gran escala con atención híbrida y pesos abiertos del mundo
Su arquitectura híbrida MoE de 456 mil millones de parámetros y el mecanismo de atención Lightning destacan en el manejo de contextos largos
Con entrenamiento basado en RL y la incorporación del algoritmo CISPO, puede resolver eficientemente una amplia variedad de problemas
En benchmarks, frente a modelos como DeepSeek-R1 y Qwen3-235B, muestra un rendimiento sobresaliente en ingeniería de software compleja, uso de herramientas y entradas extensas
Gracias a distintos entornos de inferencia, herramientas de soporte, API y chatbot, tiene alto valor como base para agentes de modelos de lenguaje de próxima generación

Resumen del proyecto open source MiniMax-M1

MiniMax-M1 es el primer modelo de razonamiento de gran escala con atención híbrida y pesos abiertos del mundo, y demuestra ventajas sólidas y utilidad práctica frente a modelos comerciales y abiertos existentes
Combina una arquitectura Mixture-of-Experts (MoE) híbrida a gran escala con el mecanismo de atención Lightning, optimizado para contextos largos, razonamiento complejo y resolución de problemas en entornos de software
Soporta de forma eficiente contextos largos (hasta 1 millón de tokens) y reduce drásticamente el cómputo en inferencia (25% de los FLOPs de DeepSeek-R1 en 100K)
Con tecnología RL de última generación, el novedoso algoritmo CISPO y un diseño de atención híbrida, maximiza tanto la escalabilidad como la eficiencia de inferencia

1. Descripción general del modelo

MiniMax-M1 incorpora una arquitectura híbrida Mixture-of-Experts (MoE) y atención Lightning
Fue desarrollado sobre la base de MiniMax-Text-01 (456 mil millones de parámetros, con 45.9 mil millones de parámetros activados por token)
Soporta una longitud de contexto de 1 millón de tokens (8 veces el contexto de DeepSeek R1)
La atención Lightning reduce drásticamente el cómputo en inferencia (25% frente a DeepSeek R1)
Es adecuado para tareas que requieren entradas largas y razonamiento complejo
Se entrenó mediante RL a gran escala para abordar una amplia gama de problemas, incluido razonamiento matemático e ingeniería de software en escenarios reales
Presenta un framework de escalamiento en RL propio de MiniMax-M1
- Técnica CISPO: introduce un algoritmo de clipping de pesos de importance sampling superior a los enfoques RL tradicionales
- La atención híbrida refuerza la eficiencia y escalabilidad del RL
Se entrenó y publicó en dos variantes de presupuesto de razonamiento 40K y 80K
En ingeniería de software, uso de herramientas y tareas de contexto largo, ofrece un rendimiento sobresaliente frente a modelos abiertos de alto desempeño como DeepSeek-R1 y Qwen3-235B
Proporciona una base para construir agentes de modelos de lenguaje de próxima generación capaces de resolver desafíos del mundo real

2. Evaluación

Puntos principales de los resultados en benchmarks

Nivel SOTA en matemáticas, código, ingeniería de software y contexto largo
Logra puntajes generalmente altos frente a otros modelos abiertos, con una competitividad especialmente diferenciada en benchmarks de software (SWE-bench) y contexto largo
Ejemplos de resultados destacados
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- Muestra solidez en tareas relevantes para desarrollo de software como LiveCodeBench y FullStackBench
Entorno de ejecución: evaluado con temperature 1.0 y top_p 0.95
Para benchmarks como SWE-bench y TAU-bench, se realizaron evaluaciones basadas en procedimientos y configuraciones propias (por ejemplo, localización en dos etapas a nivel de archivo, sin uso de embeddings)

3. Guía de uso del modelo MiniMax-M1

Configuración recomendada para un rendimiento óptimo

3.1. Parámetros de inferencia

Temperature: 1.0
Top_p: 0.95
Esta combinación ofrece un entorno que equilibra diversidad textual y coherencia lógica

3.2. Prompt del sistema

Tareas generales: "You are a helpful assistant."
Desarrollo web: se proporciona un prompt especializado para tareas complejas de páginas web, como generar código integral de UI
Razonamiento matemático: resolver paso a paso y luego escribir la respuesta final en \boxed{}

4. Guía de despliegue

Los modelos MiniMax-M1-40k y MiniMax-M1-80k pueden descargarse desde HuggingFace
Para servicios reales, se recomienda despliegue basado en vLLM
- Es adecuado para servir modelos grandes gracias a gestión eficiente de memoria, excelente procesamiento por lotes y optimización de rendimiento
También se admite despliegue por separado basado en Transformers

5. Llamado de funciones (interfaz funcional)

MiniMax-M1 soporta función de llamado de funciones
- Cuando se necesita una función externa, genera automáticamente los parámetros en formato estructurado
- Se ofrece una guía de llamado de funciones

6. Chatbot y API

MiniMax Chatbot: ofrece una interfaz de chat que incluso incluye búsqueda en línea
API: ofrece una API en línea para desarrolladores y herramientas como MiniMax MCP Server
- Incluye síntesis de video, imagen y voz basada en IA, así como clonación de voz

1 comentarios

GN⁺ 2025-06-19

Comentarios de Hacker News

Si te preguntas qué se necesita para ejecutar esto, hacen falta 8 H200 de 141 GB y el precio ronda los 250 mil dólares
discusión en github / información de precio del producto en eBay
- Me pregunto si no se podrá correr con una Mac Studio de 512 GB; con unos 8,500 dólares debería alcanzar
- Eso sería hablando de cuantización total; si lo corres en Q4 o Q8, podría funcionar en hardware de menos de 10 mil dólares
- Tengo curiosidad por saber cuántos parámetros tiene este modelo
Se dice que esta semana es la 'launch week' de MiniMax
El lunes presentaron M1 y el martes Hailuo 2
noticias sobre modelos chinos
Aún no está claro si seguirán haciendo anuncios durante toda la semana, y por ahora la empresa es conocida principalmente por sus LLM y modelos de video
Los anuncios oficiales se pueden ver en el X de MiniMax (antes Twitter)
Además, el reporte técnico de MiniMax M1 también es útil
PDF del reporte técnico
No es un modelo open-weight SOTA, pero hace afirmaciones muy interesantes y ambiciosas sobre lightning attention y una variante de GRPO (CISPO)
(No tengo relación con esta empresa, solo comparto información que encontré)
- Ya que fue lunes M1 y martes Hailuo 2, habría sido divertido si los nombraran como los chips de Apple: M1, M1 Pro y M1 Ultra
Al ver en el paper de arXiv la frase "We publicly release MiniMax-M1 at this https url", me cayó bien la empresa porque fue una publicación real de código y no solo un repositorio vacío
Mi opinión
- Según LinkedIn, parece ser una empresa con base en Singapur, y no parece haber una barrera de entrada tan alta para crear buenos LLM
- Gracias a los modelos open-weight y al avance de Strix Halo / Ryzen AI Max, soy optimista en que en unos años se podrán correr buenos LLM localmente y a bajo costo
- Parece inevitable que ejecutar modelos localmente se vuelva la norma, y eso me genera tanto expectativa como preocupación
  Si alguien conoce expertos confiables o personas que estén teniendo discusiones interesantes sobre este tema, me gustaría que me las recomendaran
- A diferencia de lo que aparece en LinkedIn, en realidad es una empresa con base en Shanghái
- Vi un post de Twitter donde MiniMax decía que entrenó el modelo con un presupuesto de unos 500 mil dólares
  
  Entrenamiento de RL (aprendizaje por refuerzo) por 534,700 dólares
  Me pregunto cómo fue posible con ese costo
- Esta empresa es en realidad una compañía china con sede en Shanghái
  También planea cotizar pronto en la Bolsa de Hong Kong (HKEX)
  artículo relacionado
En la página oficial no se indica explícitamente, pero MiniMax es una empresa china
ver Wikipedia
- Mucha gente sabe que MiniMax es una empresa china porque su generador de video tiene un nombre muy marcado culturalmente como 'Hailuo', y hasta ahora se ha hecho famoso por eso
- Me pregunto si realmente hay alguna razón para que en la página de su proyecto tengan que aclarar que es una empresa china
Ojalá le pusieran mejores nombres a este tipo de modelos
Suena como un procesador de Mac Studio
- Conozco el algoritmo minimax
  El nombre viene de ese famoso algoritmo clásico de IA
- Tu Mac la fabrica 'Apple', que en realidad viene del nombre de una variedad de manzana
- Me hace pensar en mi perro perdido de hace mucho tiempo que se llamaba Max; el nombre me parece tan malo que raya en lo criminal
En el paper dice: "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
Es decir, el 87.5% del total es linear attention y el 12.5% full attention
La verdad, el término 'linear attention' confunde
softmax attention es una forma de enrutar información, y al calcular el token k recibe información de 1~k, pero tiene que pasar por canales de tamaño fijo
En cambio, linear attention solo tiene un 'banco de registros' de tamaño fijo en cada layer
Más que attention de verdad, no tiene nada particularmente destacable salvo que es compatible con operaciones layer-at-once
Se comenta que MiniMax está dejando correr rumores sobre una salida a bolsa por IPO
artículo relacionado
Si entrenaron algo de este tamaño sin infraestructura cloud occidental, me da curiosidad cómo es su estructura de procesamiento de tokens
- Entrenaron durante 3 semanas con 512 GPU H800 y el costo fue de unos 500 mil dólares
  referencia en xcancel
- Usando sneakernet (traslado físico de datos)

MiniMax-M1 de pesos abiertos, modelo de razonamiento de gran escala con atención híbrida

Resumen del proyecto open source MiniMax-M1

1. Descripción general del modelo

2. Evaluación

Puntos principales de los resultados en benchmarks

3. Guía de uso del modelo MiniMax-M1

Configuración recomendada para un rendimiento óptimo

3.1. Parámetros de inferencia

3.2. Prompt del sistema

4. Guía de despliegue

5. Llamado de funciones (interfaz funcional)

6. Chatbot y API

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News