- MiniMax-M1 es el primer modelo de razonamiento de gran escala con atención híbrida y pesos abiertos del mundo
- Su arquitectura híbrida MoE de 456 mil millones de parámetros y el mecanismo de atención Lightning destacan en el manejo de contextos largos
- Con entrenamiento basado en RL y la incorporación del algoritmo CISPO, puede resolver eficientemente una amplia variedad de problemas
- En benchmarks, frente a modelos como DeepSeek-R1 y Qwen3-235B, muestra un rendimiento sobresaliente en ingeniería de software compleja, uso de herramientas y entradas extensas
- Gracias a distintos entornos de inferencia, herramientas de soporte, API y chatbot, tiene alto valor como base para agentes de modelos de lenguaje de próxima generación
Resumen del proyecto open source MiniMax-M1
- MiniMax-M1 es el primer modelo de razonamiento de gran escala con atención híbrida y pesos abiertos del mundo, y demuestra ventajas sólidas y utilidad práctica frente a modelos comerciales y abiertos existentes
- Combina una arquitectura Mixture-of-Experts (MoE) híbrida a gran escala con el mecanismo de atención Lightning, optimizado para contextos largos, razonamiento complejo y resolución de problemas en entornos de software
- Soporta de forma eficiente contextos largos (hasta 1 millón de tokens) y reduce drásticamente el cómputo en inferencia (25% de los FLOPs de DeepSeek-R1 en 100K)
- Con tecnología RL de última generación, el novedoso algoritmo CISPO y un diseño de atención híbrida, maximiza tanto la escalabilidad como la eficiencia de inferencia
1. Descripción general del modelo
- MiniMax-M1 incorpora una arquitectura híbrida Mixture-of-Experts (MoE) y atención Lightning
- Fue desarrollado sobre la base de MiniMax-Text-01 (456 mil millones de parámetros, con 45.9 mil millones de parámetros activados por token)
- Soporta una longitud de contexto de 1 millón de tokens (8 veces el contexto de DeepSeek R1)
- La atención Lightning reduce drásticamente el cómputo en inferencia (25% frente a DeepSeek R1)
- Es adecuado para tareas que requieren entradas largas y razonamiento complejo
- Se entrenó mediante RL a gran escala para abordar una amplia gama de problemas, incluido razonamiento matemático e ingeniería de software en escenarios reales
- Presenta un framework de escalamiento en RL propio de MiniMax-M1
- Técnica CISPO: introduce un algoritmo de clipping de pesos de importance sampling superior a los enfoques RL tradicionales
- La atención híbrida refuerza la eficiencia y escalabilidad del RL
- Se entrenó y publicó en dos variantes de presupuesto de razonamiento 40K y 80K
- En ingeniería de software, uso de herramientas y tareas de contexto largo, ofrece un rendimiento sobresaliente frente a modelos abiertos de alto desempeño como DeepSeek-R1 y Qwen3-235B
- Proporciona una base para construir agentes de modelos de lenguaje de próxima generación capaces de resolver desafíos del mundo real
2. Evaluación
Puntos principales de los resultados en benchmarks
- Nivel SOTA en matemáticas, código, ingeniería de software y contexto largo
- Logra puntajes generalmente altos frente a otros modelos abiertos, con una competitividad especialmente diferenciada en benchmarks de software (SWE-bench) y contexto largo
- Ejemplos de resultados destacados
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- Muestra solidez en tareas relevantes para desarrollo de software como LiveCodeBench y FullStackBench
- Entorno de ejecución: evaluado con temperature 1.0 y top_p 0.95
- Para benchmarks como SWE-bench y TAU-bench, se realizaron evaluaciones basadas en procedimientos y configuraciones propias (por ejemplo, localización en dos etapas a nivel de archivo, sin uso de embeddings)
3. Guía de uso del modelo MiniMax-M1
Configuración recomendada para un rendimiento óptimo
3.1. Parámetros de inferencia
- Temperature: 1.0
- Top_p: 0.95
Esta combinación ofrece un entorno que equilibra diversidad textual y coherencia lógica
3.2. Prompt del sistema
- Tareas generales: "You are a helpful assistant."
- Desarrollo web: se proporciona un prompt especializado para tareas complejas de páginas web, como generar código integral de UI
- Razonamiento matemático: resolver paso a paso y luego escribir la respuesta final en \boxed{}
4. Guía de despliegue
- Los modelos MiniMax-M1-40k y MiniMax-M1-80k pueden descargarse desde HuggingFace
- Para servicios reales, se recomienda despliegue basado en vLLM
- Es adecuado para servir modelos grandes gracias a gestión eficiente de memoria, excelente procesamiento por lotes y optimización de rendimiento
- También se admite despliegue por separado basado en Transformers
5. Llamado de funciones (interfaz funcional)
- MiniMax-M1 soporta función de llamado de funciones
- Cuando se necesita una función externa, genera automáticamente los parámetros en formato estructurado
- Se ofrece una guía de llamado de funciones
6. Chatbot y API
- MiniMax Chatbot: ofrece una interfaz de chat que incluso incluye búsqueda en línea
- API: ofrece una API en línea para desarrolladores y herramientas como MiniMax MCP Server
- Incluye síntesis de video, imagen y voz basada en IA, así como clonación de voz
1 comentarios
Comentarios de Hacker News
Si te preguntas qué se necesita para ejecutar esto, hacen falta 8 H200 de 141 GB y el precio ronda los 250 mil dólares
discusión en github / información de precio del producto en eBay
Se dice que esta semana es la 'launch week' de MiniMax
El lunes presentaron M1 y el martes Hailuo 2
noticias sobre modelos chinos
Aún no está claro si seguirán haciendo anuncios durante toda la semana, y por ahora la empresa es conocida principalmente por sus LLM y modelos de video
Los anuncios oficiales se pueden ver en el X de MiniMax (antes Twitter)
Además, el reporte técnico de MiniMax M1 también es útil
PDF del reporte técnico
No es un modelo open-weight SOTA, pero hace afirmaciones muy interesantes y ambiciosas sobre lightning attention y una variante de GRPO (CISPO)
(No tengo relación con esta empresa, solo comparto información que encontré)
Al ver en el paper de arXiv la frase "We publicly release MiniMax-M1 at this https url", me cayó bien la empresa porque fue una publicación real de código y no solo un repositorio vacío
Mi opinión
Si alguien conoce expertos confiables o personas que estén teniendo discusiones interesantes sobre este tema, me gustaría que me las recomendaran
También planea cotizar pronto en la Bolsa de Hong Kong (HKEX)
artículo relacionado
En la página oficial no se indica explícitamente, pero MiniMax es una empresa china
ver Wikipedia
Ojalá le pusieran mejores nombres a este tipo de modelos
Suena como un procesador de Mac Studio
El nombre viene de ese famoso algoritmo clásico de IA
En el paper dice: "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
Es decir, el 87.5% del total es linear attention y el 12.5% full attention
La verdad, el término 'linear attention' confunde
softmax attention es una forma de enrutar información, y al calcular el token k recibe información de 1~k, pero tiene que pasar por canales de tamaño fijo
En cambio, linear attention solo tiene un 'banco de registros' de tamaño fijo en cada layer
Más que attention de verdad, no tiene nada particularmente destacable salvo que es compatible con operaciones layer-at-once
Se comenta que MiniMax está dejando correr rumores sobre una salida a bolsa por IPO
artículo relacionado
Si entrenaron algo de este tamaño sin infraestructura cloud occidental, me da curiosidad cómo es su estructura de procesamiento de tokens
referencia en xcancel