5 puntos por GN⁺ 2025-06-19 | 1 comentarios | Compartir por WhatsApp
  • MiniMax-M1 es el primer modelo de razonamiento de gran escala con atención híbrida y pesos abiertos del mundo
  • Su arquitectura híbrida MoE de 456 mil millones de parámetros y el mecanismo de atención Lightning destacan en el manejo de contextos largos
  • Con entrenamiento basado en RL y la incorporación del algoritmo CISPO, puede resolver eficientemente una amplia variedad de problemas
  • En benchmarks, frente a modelos como DeepSeek-R1 y Qwen3-235B, muestra un rendimiento sobresaliente en ingeniería de software compleja, uso de herramientas y entradas extensas
  • Gracias a distintos entornos de inferencia, herramientas de soporte, API y chatbot, tiene alto valor como base para agentes de modelos de lenguaje de próxima generación

Resumen del proyecto open source MiniMax-M1

  • MiniMax-M1 es el primer modelo de razonamiento de gran escala con atención híbrida y pesos abiertos del mundo, y demuestra ventajas sólidas y utilidad práctica frente a modelos comerciales y abiertos existentes
  • Combina una arquitectura Mixture-of-Experts (MoE) híbrida a gran escala con el mecanismo de atención Lightning, optimizado para contextos largos, razonamiento complejo y resolución de problemas en entornos de software
  • Soporta de forma eficiente contextos largos (hasta 1 millón de tokens) y reduce drásticamente el cómputo en inferencia (25% de los FLOPs de DeepSeek-R1 en 100K)
  • Con tecnología RL de última generación, el novedoso algoritmo CISPO y un diseño de atención híbrida, maximiza tanto la escalabilidad como la eficiencia de inferencia

1. Descripción general del modelo

  • MiniMax-M1 incorpora una arquitectura híbrida Mixture-of-Experts (MoE) y atención Lightning
  • Fue desarrollado sobre la base de MiniMax-Text-01 (456 mil millones de parámetros, con 45.9 mil millones de parámetros activados por token)
  • Soporta una longitud de contexto de 1 millón de tokens (8 veces el contexto de DeepSeek R1)
  • La atención Lightning reduce drásticamente el cómputo en inferencia (25% frente a DeepSeek R1)
  • Es adecuado para tareas que requieren entradas largas y razonamiento complejo
  • Se entrenó mediante RL a gran escala para abordar una amplia gama de problemas, incluido razonamiento matemático e ingeniería de software en escenarios reales
  • Presenta un framework de escalamiento en RL propio de MiniMax-M1
    • Técnica CISPO: introduce un algoritmo de clipping de pesos de importance sampling superior a los enfoques RL tradicionales
    • La atención híbrida refuerza la eficiencia y escalabilidad del RL
  • Se entrenó y publicó en dos variantes de presupuesto de razonamiento 40K y 80K
  • En ingeniería de software, uso de herramientas y tareas de contexto largo, ofrece un rendimiento sobresaliente frente a modelos abiertos de alto desempeño como DeepSeek-R1 y Qwen3-235B
  • Proporciona una base para construir agentes de modelos de lenguaje de próxima generación capaces de resolver desafíos del mundo real

2. Evaluación

Puntos principales de los resultados en benchmarks

  • Nivel SOTA en matemáticas, código, ingeniería de software y contexto largo
  • Logra puntajes generalmente altos frente a otros modelos abiertos, con una competitividad especialmente diferenciada en benchmarks de software (SWE-bench) y contexto largo
  • Ejemplos de resultados destacados
    • SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
    • OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
    • Muestra solidez en tareas relevantes para desarrollo de software como LiveCodeBench y FullStackBench
  • Entorno de ejecución: evaluado con temperature 1.0 y top_p 0.95
  • Para benchmarks como SWE-bench y TAU-bench, se realizaron evaluaciones basadas en procedimientos y configuraciones propias (por ejemplo, localización en dos etapas a nivel de archivo, sin uso de embeddings)

3. Guía de uso del modelo MiniMax-M1

Configuración recomendada para un rendimiento óptimo

3.1. Parámetros de inferencia

  • Temperature: 1.0
  • Top_p: 0.95
    Esta combinación ofrece un entorno que equilibra diversidad textual y coherencia lógica

3.2. Prompt del sistema

  • Tareas generales: "You are a helpful assistant."
  • Desarrollo web: se proporciona un prompt especializado para tareas complejas de páginas web, como generar código integral de UI
  • Razonamiento matemático: resolver paso a paso y luego escribir la respuesta final en \boxed{}

4. Guía de despliegue

  • Los modelos MiniMax-M1-40k y MiniMax-M1-80k pueden descargarse desde HuggingFace
  • Para servicios reales, se recomienda despliegue basado en vLLM
    • Es adecuado para servir modelos grandes gracias a gestión eficiente de memoria, excelente procesamiento por lotes y optimización de rendimiento
  • También se admite despliegue por separado basado en Transformers

5. Llamado de funciones (interfaz funcional)

  • MiniMax-M1 soporta función de llamado de funciones
    • Cuando se necesita una función externa, genera automáticamente los parámetros en formato estructurado
    • Se ofrece una guía de llamado de funciones

6. Chatbot y API

  • MiniMax Chatbot: ofrece una interfaz de chat que incluso incluye búsqueda en línea
  • API: ofrece una API en línea para desarrolladores y herramientas como MiniMax MCP Server
    • Incluye síntesis de video, imagen y voz basada en IA, así como clonación de voz

1 comentarios

 
GN⁺ 2025-06-19
Comentarios de Hacker News
  • Si te preguntas qué se necesita para ejecutar esto, hacen falta 8 H200 de 141 GB y el precio ronda los 250 mil dólares
    discusión en github / información de precio del producto en eBay

    • Me pregunto si no se podrá correr con una Mac Studio de 512 GB; con unos 8,500 dólares debería alcanzar
    • Eso sería hablando de cuantización total; si lo corres en Q4 o Q8, podría funcionar en hardware de menos de 10 mil dólares
    • Tengo curiosidad por saber cuántos parámetros tiene este modelo
  • Se dice que esta semana es la 'launch week' de MiniMax
    El lunes presentaron M1 y el martes Hailuo 2
    noticias sobre modelos chinos
    Aún no está claro si seguirán haciendo anuncios durante toda la semana, y por ahora la empresa es conocida principalmente por sus LLM y modelos de video
    Los anuncios oficiales se pueden ver en el X de MiniMax (antes Twitter)
    Además, el reporte técnico de MiniMax M1 también es útil
    PDF del reporte técnico
    No es un modelo open-weight SOTA, pero hace afirmaciones muy interesantes y ambiciosas sobre lightning attention y una variante de GRPO (CISPO)
    (No tengo relación con esta empresa, solo comparto información que encontré)

    • Ya que fue lunes M1 y martes Hailuo 2, habría sido divertido si los nombraran como los chips de Apple: M1, M1 Pro y M1 Ultra
  • Al ver en el paper de arXiv la frase "We publicly release MiniMax-M1 at this https url", me cayó bien la empresa porque fue una publicación real de código y no solo un repositorio vacío

  • Mi opinión

    • Según LinkedIn, parece ser una empresa con base en Singapur, y no parece haber una barrera de entrada tan alta para crear buenos LLM
    • Gracias a los modelos open-weight y al avance de Strix Halo / Ryzen AI Max, soy optimista en que en unos años se podrán correr buenos LLM localmente y a bajo costo
    • Parece inevitable que ejecutar modelos localmente se vuelva la norma, y eso me genera tanto expectativa como preocupación
      Si alguien conoce expertos confiables o personas que estén teniendo discusiones interesantes sobre este tema, me gustaría que me las recomendaran
    • A diferencia de lo que aparece en LinkedIn, en realidad es una empresa con base en Shanghái
    • Vi un post de Twitter donde MiniMax decía que entrenó el modelo con un presupuesto de unos 500 mil dólares

      Entrenamiento de RL (aprendizaje por refuerzo) por 534,700 dólares
      Me pregunto cómo fue posible con ese costo

    • Esta empresa es en realidad una compañía china con sede en Shanghái
      También planea cotizar pronto en la Bolsa de Hong Kong (HKEX)
      artículo relacionado
  • En la página oficial no se indica explícitamente, pero MiniMax es una empresa china
    ver Wikipedia

    • Mucha gente sabe que MiniMax es una empresa china porque su generador de video tiene un nombre muy marcado culturalmente como 'Hailuo', y hasta ahora se ha hecho famoso por eso
    • Me pregunto si realmente hay alguna razón para que en la página de su proyecto tengan que aclarar que es una empresa china
  • Ojalá le pusieran mejores nombres a este tipo de modelos
    Suena como un procesador de Mac Studio

    • Conozco el algoritmo minimax
      El nombre viene de ese famoso algoritmo clásico de IA
    • Tu Mac la fabrica 'Apple', que en realidad viene del nombre de una variedad de manzana
    • Me hace pensar en mi perro perdido de hace mucho tiempo que se llamaba Max; el nombre me parece tan malo que raya en lo criminal
  • En el paper dice: "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
    Es decir, el 87.5% del total es linear attention y el 12.5% full attention
    La verdad, el término 'linear attention' confunde
    softmax attention es una forma de enrutar información, y al calcular el token k recibe información de 1~k, pero tiene que pasar por canales de tamaño fijo
    En cambio, linear attention solo tiene un 'banco de registros' de tamaño fijo en cada layer
    Más que attention de verdad, no tiene nada particularmente destacable salvo que es compatible con operaciones layer-at-once

  • Se comenta que MiniMax está dejando correr rumores sobre una salida a bolsa por IPO
    artículo relacionado

  • Si entrenaron algo de este tamaño sin infraestructura cloud occidental, me da curiosidad cómo es su estructura de procesamiento de tokens

    • Entrenaron durante 3 semanas con 512 GPU H800 y el costo fue de unos 500 mil dólares
      referencia en xcancel
    • Usando sneakernet (traslado físico de datos)