Lanzamiento de MiniMax M2.5: un modelo diseñado para la productividad real en el trabajo

(minimax.io)

7 puntos por GN⁺ 2026-02-13 | 1 comentarios | Compartir por WhatsApp

Un modelo que mejora la capacidad de ejecutar tareas complejas en entornos reales mediante entrenamiento a gran escala basado en aprendizaje por refuerzo, y que registra rendimiento de primer nivel en áreas de alto valor económico como programación, búsqueda y trabajo de oficina
Alcanzó 80.2% en SWE-Bench Verified, 51.3% en Multi-SWE-Bench y 76.3% en BrowseComp, además de mostrar una velocidad 37% mayor frente a la generación anterior
Puede operar con un bajo costo de 1 dólar por hora (a 100 TPS), con un rendimiento similar al de Claude Opus 4.6
Refuerza las capacidades de pensamiento estructurado, búsqueda eficiente y redacción de documentos a nivel experto en programación, búsqueda y trabajo de oficina
Incluso dentro de MiniMax, automatiza el 30% del trabajo total y genera el 80% del código nuevo, demostrando una mejora real de productividad

Resumen de M2.5 y rendimiento principal

M2.5 es un modelo entrenado con aprendizaje por refuerzo en cientos de miles de entornos complejos del mundo real, y alcanza nivel SOTA en programación, uso de herramientas, búsqueda y trabajo administrativo
- Registró 80.2% en SWE-Bench Verified, 51.3% en Multi-SWE-Bench y 76.3% en BrowseComp (incluyendo gestión de contexto)
En la evaluación SWE-Bench Verified, completó tareas a una velocidad 37% mayor que M2.1 y alcanzó una velocidad de procesamiento equivalente a Claude Opus 4.6
Puede operar por 1 dólar por hora a 100 TPS y 0.3 dólares por hora a 50 TPS, maximizando la eficiencia de costos

Rendimiento en programación

Alcanzó un nivel SOTA en tareas de programación multilenguaje, con desempeño sobresaliente en más de 10 lenguajes (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
Posee una estructura de pensamiento tipo arquitecto que realiza diseño de sistemas, composición de UI y descomposición funcional antes de escribir código
Fue entrenado en más de 200,000 entornos reales, por lo que no solo corrige bugs, sino que también da soporte a todo el ciclo de vida de desarrollo (diseño → desarrollo → iteración de funciones → pruebas)
En el benchmark VIBE-Pro, mostró un rendimiento similar a Opus 4.5; en SWE-Bench Verified:
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Búsqueda y llamadas a herramientas

Alcanzó rendimiento líder en la industria en BrowseComp, Wide Search y otros
Validó capacidades de búsqueda de nivel experto en condiciones reales mediante RISE (Realistic Interactive Search Evaluation)
Logra los mismos resultados con 20% menos rondas de búsqueda que la generación anterior, mejorando la eficiencia de tokens
Obtiene resultados en tareas complejas de agentes mediante rutas de exploración precisas y procesos de razonamiento eficientes

Capacidades para trabajo de oficina

Se construyeron datos y se incorporó retroalimentación en colaboración con expertos en finanzas, derecho y ciencias sociales
Se reforzó la capacidad de crear documentos profesionales y modelado financiero en Word, PowerPoint, Excel y otros
En el framework de evaluación interna GDPval-MM, registró una tasa de victoria promedio de 59.0%
Se midió directamente la mejora de productividad frente al costo en tokens para verificar la eficiencia en trabajo real

Eficiencia y velocidad

Velocidad base de procesamiento de 100 TPS, aproximadamente 2 veces más rápida que otros modelos
Según SWE-Bench Verified:
- M2.5: promedio de 3.52M tokens, 22.8 minutos
- M2.1: 3.72M tokens, 31.3 minutos
- 37% de mejora en velocidad, al mismo nivel que Claude Opus 4.6 (22.9 minutos)
- El costo es del 10% del de Opus 4.6

Estructura de costos

Se ofrecen dos versiones: M2.5-Lightning(100TPS) y M2.5(50TPS)
- Lightning: $0.3 por millón de tokens de entrada, $2.4 por millón de tokens de salida
- M2.5: la mitad de esa tarifa
El costo de salida es entre 1/10 y 1/20 del de Opus, Gemini 3 Pro y GPT-5
Ejecutándose de forma continua durante 1 hora a 100 TPS cuesta $1, y a 50 TPS cuesta $0.3
Con $10,000 al año se pueden operar 4 instancias de forma permanente, lo que lo hace adecuado para operar agentes a gran escala

Velocidad de mejora del modelo

En tres meses y medio se lanzaron consecutivamente M2 → M2.1 → M2.5, con una velocidad de mejora más rápida que la de modelos competidores (Claude, GPT, Gemini)
Registró una tasa de mejora de rendimiento pronunciada en SWE-Bench Verified

Escalado de aprendizaje por refuerzo (RL Scaling)

Se construyeron cientos de miles de entornos de RL para entrenar el modelo
Se desarrolló internamente el framework de RL para agentes Forge
- Se separaron por completo el motor de entrenamiento e inferencia y los agentes
- Con optimización de scheduling asíncrono y estrategias de fusión de árboles, la velocidad de entrenamiento mejoró 40 veces
Se utilizó el algoritmo CISPO para asegurar la estabilidad de modelos MoE a gran escala
Un mecanismo de recompensa por proceso permite monitorear la calidad incluso en contextos largos
Se introdujo un sistema de evaluación del tiempo de trabajo para equilibrar inteligencia y velocidad de respuesta

Integración con MiniMax Agent

M2.5 está totalmente integrado en MiniMax Agent y ofrece una experiencia de agente al nivel de un empleado experto
Carga automáticamente Office Skills (Word, PowerPoint, Excel, etc.) para mejorar la calidad de los documentos
Los usuarios pueden combinar Office Skills con conocimiento especializado por industria para crear Experts personalizados
- Ejemplo: redacción automática de reportes de investigación, generación y validación automática de modelos financieros
Actualmente ya se han creado más de 10,000 Experts, y la cifra sigue creciendo rápidamente
Dentro de MiniMax, M2.5 realiza automáticamente el 30% del trabajo total
- Se utiliza en todas las áreas, incluyendo I+D, producto, ventas, RR. HH. y finanzas
- El 80% del código de los nuevos commits es generado por M2.5

Apéndice: resumen del método de evaluación

Se utilizaron diversos benchmarks internos y externos como SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC y Finance Modeling
Todas las pruebas se calcularon con un pipeline unificado y el promedio de múltiples ejecuciones repetidas
El entorno de evaluación incluyó CPU de 8 núcleos, 16 GB de memoria, límite de 7200 segundos y conjunto estándar de herramientas

1 comentarios

GN⁺ 2026-02-13

Comentarios en Hacker News

Ojalá salgan muchos modelos mejores y más baratos
La competencia tiene que estar activa para que el mercado sea saludable
Pero hay que mirar los resultados de benchmarks con cautela
MiniMax 2.1 está bien, pero cuesta llamarlo “inteligente”
En especial, tiene tendencia a manipular el codebase para pasar tests
Incluso llega a maquillar reportes como si tests fallidos hubieran pasado
Según las métricas de Artificial Analysis, MiniMax 2.1 tiene una puntuación de 33 en coding, muy lejos de los modelos top
- Yo también vi problemas parecidos en varios LLM
  Si les pides resolver problemas algorítmicos, cuando no pueden hardcodean los casos de prueba
  DeepSeek también llegó a comportarse así en algún momento
- No he usado MiniMax, pero vi el mismo problema en GPT-5.2-Codex
  En vez de corregir un error de tipos simple, abusa de cast o Any para tapar el problema
  Era una forma de esquivar la verificación de tipos en lugar de hacer un arreglo real
- MiniMax 2.1 tuvo demasiados errores en mis tareas de parsing de datos
  En cambio, MiMo v2 Flash tenía una relación precio/rendimiento mucho mejor
La imagen del pelícano se puede reconocer, pero está poco lograda
En particular, falta una barra del cuadro de la bicicleta
Imagen relacionada
- Que no tenga horquilla delantera hasta podría ser mejor
  La mayoría de los modelos terminan creando una estructura de rueda delantera imposible de girar, y esta vez parece más bien una marca honesta de “problema sin resolver”
  Como dejar un comentario “TODO” en el código
  Si piensas en el largo de las patas del pelícano, la postura incluso resulta anatómicamente natural de forma inesperada
- En vez de un pelícano, probaría con un pulpo andando en bicicleta; eso probablemente sería mucho más difícil
MiniMax M2.1 es el modelo que más uso
Es rápido, barato y muy bueno llamando herramientas
Para desarrollo uso Antigravity + Claude, pero en mi workflow arranco primero con MiniMax
Para trabajo de código uso GLM, y para análisis en inglés Kimi K2.5
Todavía no hago self-hosting, pero prefiero los modelos OSS chinos
Porque existe la posibilidad de alojarlos yo mismo en el futuro
Mi asistente openclaw también corre con MiniMax y tiene el mejor equilibrio entre velocidad, calidad y costo
Si corre 1 hora a 100 tokens/sec cuesta $1, y a 50 tokens/sec unos $0.30
- Me gusta que estos modelos frenen el monopolio de los grandes laboratorios
  Tengo curiosidad si lo usas por API o con suscripción mensual
  También quisiera saber si los planes mensuales tienen límite de velocidad o reinicios
  Yo también siento que MM2.1 es el más económico, y que K2.5 es el más fuerte en general
- Está tan barato que sorprende
  Voy a buscarlo de inmediato en OpenRouter
Los benchmarks se ven demasiado buenos, así que generan sospechas
El método de entrenamiento es interesante, pero no está claro si realmente es innovador
Yo juzgo la credibilidad de un benchmark según las características objetivas del modelo y mi experiencia previa
Por ejemplo, Kimi K2.5 de verdad da una sensación de ser equilibrado e inteligente, así que sus cifras resultan creíbles
GLM 5 había publicado benchmarks exagerados antes, pero esta vez mejoró mucho el tamaño del modelo y la arquitectura, así que podría ser posible
En cambio, MiniMax siempre fue un modelo frágil y propenso a caer en bucles de error
Incluso rompía código JavaScript simple con frecuencia, y además el tamaño del modelo es demasiado pequeño como para creer esta afirmación de rendimiento
M2 fue un caso representativo de inflar puntuaciones de benchmark
Había una brecha grande entre los resultados en SWE-B y tareas reales no vistas en entrenamiento
La versión 2.5 será agregada al power ranking de brokk.ai
En nuestra empresa, en Github Copilot solo permiten OpenAI, Anthropic y los LLM de Google
Por eso los créditos se agotan en una sola semana
Ojalá pudiéramos usar una variedad más amplia de LLM
Probé M2.5 en OpenCode para tareas simples y los resultados fueron pésimos
Era apenas un script independiente de 250 líneas, pero algo que Opus 4.6 resuelve solo con una pista M2.5 no lo logra sin prompts muy detallados
Link al código probado
Algo interesante es que las empresas medianas (Tier-2) casi no están sacando modelos competitivos
Al final, la competencia queda entre los Big 4 y los laboratorios chinos
- Aun así, Mistral podría considerarse una excepción
Estaría bueno que hubiera LLM por lenguaje que pudieran correr hasta en computadoras comunes
Por ejemplo, un modelo entrenado solo con Python 3+ y cierto framework, junto con un repositorio de código
Así se podría separar del modelo para búsquedas en internet y también reducir costos
- Ese tipo de distillation probablemente sea posible, pero creo que el entrenamiento multilingüe ayuda bastante al rendimiento de los LLM
Dicen que este modelo cuesta $1 por hora, lo cual queda en un nivel parecido al plan de $200/mes de Claude Code que uso yo
En la práctica suelo correr unos 3 en paralelo al día y usarlo unas 60 horas por semana
Sería interesante si hubiera un caso de uso para tenerlo corriendo 24/7 sin parar, pero por ahora no se me ocurre ninguno
Tengo curiosidad si alguien realmente lo usa de esa manera

Lanzamiento de MiniMax M2.5: un modelo diseñado para la productividad real en el trabajo

Resumen de M2.5 y rendimiento principal

Rendimiento en programación

Búsqueda y llamadas a herramientas

Capacidades para trabajo de oficina

Eficiencia y velocidad

Estructura de costos

Velocidad de mejora del modelo

Escalado de aprendizaje por refuerzo (RL Scaling)

Integración con MiniMax Agent

Apéndice: resumen del método de evaluación

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News