- Un modelo que mejora la capacidad de ejecutar tareas complejas en entornos reales mediante entrenamiento a gran escala basado en aprendizaje por refuerzo, y que registra rendimiento de primer nivel en áreas de alto valor económico como programación, búsqueda y trabajo de oficina
- Alcanzó 80.2% en SWE-Bench Verified, 51.3% en Multi-SWE-Bench y 76.3% en BrowseComp, además de mostrar una velocidad 37% mayor frente a la generación anterior
- Puede operar con un bajo costo de 1 dólar por hora (a 100 TPS), con un rendimiento similar al de Claude Opus 4.6
- Refuerza las capacidades de pensamiento estructurado, búsqueda eficiente y redacción de documentos a nivel experto en programación, búsqueda y trabajo de oficina
- Incluso dentro de MiniMax, automatiza el 30% del trabajo total y genera el 80% del código nuevo, demostrando una mejora real de productividad
Resumen de M2.5 y rendimiento principal
- M2.5 es un modelo entrenado con aprendizaje por refuerzo en cientos de miles de entornos complejos del mundo real, y alcanza nivel SOTA en programación, uso de herramientas, búsqueda y trabajo administrativo
- Registró 80.2% en SWE-Bench Verified, 51.3% en Multi-SWE-Bench y 76.3% en BrowseComp (incluyendo gestión de contexto)
- En la evaluación SWE-Bench Verified, completó tareas a una velocidad 37% mayor que M2.1 y alcanzó una velocidad de procesamiento equivalente a Claude Opus 4.6
- Puede operar por 1 dólar por hora a 100 TPS y 0.3 dólares por hora a 50 TPS, maximizando la eficiencia de costos
Rendimiento en programación
- Alcanzó un nivel SOTA en tareas de programación multilenguaje, con desempeño sobresaliente en más de 10 lenguajes (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
- Posee una estructura de pensamiento tipo arquitecto que realiza diseño de sistemas, composición de UI y descomposición funcional antes de escribir código
- Fue entrenado en más de 200,000 entornos reales, por lo que no solo corrige bugs, sino que también da soporte a todo el ciclo de vida de desarrollo (diseño → desarrollo → iteración de funciones → pruebas)
- En el benchmark VIBE-Pro, mostró un rendimiento similar a Opus 4.5; en SWE-Bench Verified:
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)
Búsqueda y llamadas a herramientas
- Alcanzó rendimiento líder en la industria en BrowseComp, Wide Search y otros
- Validó capacidades de búsqueda de nivel experto en condiciones reales mediante RISE (Realistic Interactive Search Evaluation)
- Logra los mismos resultados con 20% menos rondas de búsqueda que la generación anterior, mejorando la eficiencia de tokens
- Obtiene resultados en tareas complejas de agentes mediante rutas de exploración precisas y procesos de razonamiento eficientes
Capacidades para trabajo de oficina
- Se construyeron datos y se incorporó retroalimentación en colaboración con expertos en finanzas, derecho y ciencias sociales
- Se reforzó la capacidad de crear documentos profesionales y modelado financiero en Word, PowerPoint, Excel y otros
- En el framework de evaluación interna GDPval-MM, registró una tasa de victoria promedio de 59.0%
- Se midió directamente la mejora de productividad frente al costo en tokens para verificar la eficiencia en trabajo real
Eficiencia y velocidad
- Velocidad base de procesamiento de 100 TPS, aproximadamente 2 veces más rápida que otros modelos
- Según SWE-Bench Verified:
- M2.5: promedio de 3.52M tokens, 22.8 minutos
- M2.1: 3.72M tokens, 31.3 minutos
- 37% de mejora en velocidad, al mismo nivel que Claude Opus 4.6 (22.9 minutos)
- El costo es del 10% del de Opus 4.6
Estructura de costos
- Se ofrecen dos versiones: M2.5-Lightning(100TPS) y M2.5(50TPS)
- Lightning: $0.3 por millón de tokens de entrada, $2.4 por millón de tokens de salida
- M2.5: la mitad de esa tarifa
- El costo de salida es entre 1/10 y 1/20 del de Opus, Gemini 3 Pro y GPT-5
- Ejecutándose de forma continua durante 1 hora a 100 TPS cuesta $1, y a 50 TPS cuesta $0.3
- Con $10,000 al año se pueden operar 4 instancias de forma permanente, lo que lo hace adecuado para operar agentes a gran escala
Velocidad de mejora del modelo
- En tres meses y medio se lanzaron consecutivamente M2 → M2.1 → M2.5, con una velocidad de mejora más rápida que la de modelos competidores (Claude, GPT, Gemini)
- Registró una tasa de mejora de rendimiento pronunciada en SWE-Bench Verified
Escalado de aprendizaje por refuerzo (RL Scaling)
- Se construyeron cientos de miles de entornos de RL para entrenar el modelo
- Se desarrolló internamente el framework de RL para agentes Forge
- Se separaron por completo el motor de entrenamiento e inferencia y los agentes
- Con optimización de scheduling asíncrono y estrategias de fusión de árboles, la velocidad de entrenamiento mejoró 40 veces
- Se utilizó el algoritmo CISPO para asegurar la estabilidad de modelos MoE a gran escala
- Un mecanismo de recompensa por proceso permite monitorear la calidad incluso en contextos largos
- Se introdujo un sistema de evaluación del tiempo de trabajo para equilibrar inteligencia y velocidad de respuesta
Integración con MiniMax Agent
- M2.5 está totalmente integrado en MiniMax Agent y ofrece una experiencia de agente al nivel de un empleado experto
- Carga automáticamente Office Skills (Word, PowerPoint, Excel, etc.) para mejorar la calidad de los documentos
- Los usuarios pueden combinar Office Skills con conocimiento especializado por industria para crear Experts personalizados
- Ejemplo: redacción automática de reportes de investigación, generación y validación automática de modelos financieros
- Actualmente ya se han creado más de 10,000 Experts, y la cifra sigue creciendo rápidamente
- Dentro de MiniMax, M2.5 realiza automáticamente el 30% del trabajo total
- Se utiliza en todas las áreas, incluyendo I+D, producto, ventas, RR. HH. y finanzas
- El 80% del código de los nuevos commits es generado por M2.5
Apéndice: resumen del método de evaluación
- Se utilizaron diversos benchmarks internos y externos como SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC y Finance Modeling
- Todas las pruebas se calcularon con un pipeline unificado y el promedio de múltiples ejecuciones repetidas
- El entorno de evaluación incluyó CPU de 8 núcleos, 16 GB de memoria, límite de 7200 segundos y conjunto estándar de herramientas
1 comentarios
Comentarios en Hacker News
Ojalá salgan muchos modelos mejores y más baratos
La competencia tiene que estar activa para que el mercado sea saludable
Pero hay que mirar los resultados de benchmarks con cautela
MiniMax 2.1 está bien, pero cuesta llamarlo “inteligente”
En especial, tiene tendencia a manipular el codebase para pasar tests
Incluso llega a maquillar reportes como si tests fallidos hubieran pasado
Según las métricas de Artificial Analysis, MiniMax 2.1 tiene una puntuación de 33 en coding, muy lejos de los modelos top
Si les pides resolver problemas algorítmicos, cuando no pueden hardcodean los casos de prueba
DeepSeek también llegó a comportarse así en algún momento
En vez de corregir un error de tipos simple, abusa de
castoAnypara tapar el problemaEra una forma de esquivar la verificación de tipos en lugar de hacer un arreglo real
En cambio, MiMo v2 Flash tenía una relación precio/rendimiento mucho mejor
La imagen del pelícano se puede reconocer, pero está poco lograda
En particular, falta una barra del cuadro de la bicicleta
Imagen relacionada
La mayoría de los modelos terminan creando una estructura de rueda delantera imposible de girar, y esta vez parece más bien una marca honesta de “problema sin resolver”
Como dejar un comentario “TODO” en el código
Si piensas en el largo de las patas del pelícano, la postura incluso resulta anatómicamente natural de forma inesperada
MiniMax M2.1 es el modelo que más uso
Es rápido, barato y muy bueno llamando herramientas
Para desarrollo uso Antigravity + Claude, pero en mi workflow arranco primero con MiniMax
Para trabajo de código uso GLM, y para análisis en inglés Kimi K2.5
Todavía no hago self-hosting, pero prefiero los modelos OSS chinos
Porque existe la posibilidad de alojarlos yo mismo en el futuro
Mi asistente openclaw también corre con MiniMax y tiene el mejor equilibrio entre velocidad, calidad y costo
Si corre 1 hora a 100 tokens/sec cuesta $1, y a 50 tokens/sec unos $0.30
Tengo curiosidad si lo usas por API o con suscripción mensual
También quisiera saber si los planes mensuales tienen límite de velocidad o reinicios
Yo también siento que MM2.1 es el más económico, y que K2.5 es el más fuerte en general
Voy a buscarlo de inmediato en OpenRouter
Los benchmarks se ven demasiado buenos, así que generan sospechas
El método de entrenamiento es interesante, pero no está claro si realmente es innovador
Yo juzgo la credibilidad de un benchmark según las características objetivas del modelo y mi experiencia previa
Por ejemplo, Kimi K2.5 de verdad da una sensación de ser equilibrado e inteligente, así que sus cifras resultan creíbles
GLM 5 había publicado benchmarks exagerados antes, pero esta vez mejoró mucho el tamaño del modelo y la arquitectura, así que podría ser posible
En cambio, MiniMax siempre fue un modelo frágil y propenso a caer en bucles de error
Incluso rompía código JavaScript simple con frecuencia, y además el tamaño del modelo es demasiado pequeño como para creer esta afirmación de rendimiento
M2 fue un caso representativo de inflar puntuaciones de benchmark
Había una brecha grande entre los resultados en SWE-B y tareas reales no vistas en entrenamiento
La versión 2.5 será agregada al power ranking de brokk.ai
En nuestra empresa, en Github Copilot solo permiten OpenAI, Anthropic y los LLM de Google
Por eso los créditos se agotan en una sola semana
Ojalá pudiéramos usar una variedad más amplia de LLM
Probé M2.5 en OpenCode para tareas simples y los resultados fueron pésimos
Era apenas un script independiente de 250 líneas, pero algo que Opus 4.6 resuelve solo con una pista M2.5 no lo logra sin prompts muy detallados
Link al código probado
Algo interesante es que las empresas medianas (Tier-2) casi no están sacando modelos competitivos
Al final, la competencia queda entre los Big 4 y los laboratorios chinos
Estaría bueno que hubiera LLM por lenguaje que pudieran correr hasta en computadoras comunes
Por ejemplo, un modelo entrenado solo con Python 3+ y cierto framework, junto con un repositorio de código
Así se podría separar del modelo para búsquedas en internet y también reducir costos
Dicen que este modelo cuesta $1 por hora, lo cual queda en un nivel parecido al plan de $200/mes de Claude Code que uso yo
En la práctica suelo correr unos 3 en paralelo al día y usarlo unas 60 horas por semana
Sería interesante si hubiera un caso de uso para tenerlo corriendo 24/7 sin parar, pero por ahora no se me ocurre ninguno
Tengo curiosidad si alguien realmente lo usa de esa manera