Magistral — Mistral AI presenta su primer modelo de razonamiento

(mistral.ai)

3 puntos por GN⁺ 2025-06-11 | 1 comentarios | Compartir por WhatsApp

Magistral es el primer modelo de razonamiento de Mistral AI, especializado en dominios específicos, transparencia y razonamiento multilingüe
Se lanza en dos versiones: Magistral Small (24B parámetros), de código abierto, y Magistral Medium, versión enterprise para empresas
Ofrece razonamiento multilingüe basado en Chain of Thought (cadena de pensamiento), mostrando de forma transparente el proceso lógico paso a paso en el idioma del usuario
En AIME2024, Magistral Medium mostró un rendimiento de 73.6% (máximo de 90%), y Small de 70.7% (máximo de 83.3%)
Soporta desarrollo lógico preciso paso a paso y velocidad de respuesta 10 veces mayor para distintos idiomas e industrias como legal, finanzas, salud, ingeniería de datos, desarrollo de software y contenido creativo

Magistral — Mistral AI presenta su primer modelo de razonamiento

Magistral es un modelo de razonamiento centrado en la capacidad de resolver problemas reales y la mejora basada en retroalimentación
Magistral Small es la versión open source de 24B parámetros y Magistral Medium es una versión enterprise más potente; ambas se lanzan en paralelo
Métricas de rendimiento:
- Magistral Medium: 73.6% en AIME2024, alcanzando 90% con criterio de voto mayoritario
- Magistral Small: 70.7% y 83.3%, respectivamente
Aplica razonamiento Chain of Thought basado en idiomas y sistemas de escritura globales, lo que permite desarrollar ideas con nivel de lengua materna
Es adecuado para tareas como cálculo estructurado, lógica de programación, árboles de decisión y sistemas basados en reglas
Con las funciones Think mode y Flash Answers de Le Chat, mejora la velocidad de respuesta hasta 10 veces frente a competidores
El paper oficial incluye una evaluación integral de algoritmos, infraestructura de entrenamiento, técnicas de aprendizaje por refuerzo e insights de entrenamiento

Detalles del modelo y la tecnología

Proceso de razonamiento transparente:
- Magistral está optimizado para la lógica de múltiples pasos, permitiendo que el usuario revise y siga el proceso de razonamiento en su propio idioma
- A diferencia de modelos generales, refuerza la interpretabilidad y las capacidades de validación
- Busca actualizaciones continuas del modelo y mejoras rápidas
Razonamiento multilingüe: alta precisión y consistencia lógica en inglés, francés, español, alemán, italiano, árabe, ruso, chino y otros idiomas
Velocidad de respuesta:
- Magistral Medium, mediante la función Flash Answers de Le Chat, soporta razonamiento y retroalimentación en tiempo real con una velocidad de procesamiento de tokens 10 veces mayor que la competencia
- Demuestra un desempeño sobresaliente en velocidad frente a modelos competidores principales como ChatGPT

Código abierto y participación de la comunidad

Magistral Small se publica bajo licencia Apache 2.0
Los usuarios pueden analizar, modificar y reconfigurar directamente su estructura y método de razonamiento
Modelos open source anteriores se utilizaron en proyectos de investigación innovadores como ether0 y DeepHermes 3

Casos de uso amplios

Magistral está optimizado para áreas donde el razonamiento preciso paso a paso y la transparencia son clave, como legal, finanzas, desarrollo de software y storytelling
Estrategia y operaciones de negocio
- Puede realizar planificación estratégica, evaluación de riesgos, toma de decisiones basada en datos y cálculo de soluciones óptimas bajo restricciones complejas
Industrias reguladas y sector público
- Profesionales de legal, finanzas, salud y gobierno pueden rastrear la ruta de razonamiento lógico y asegurar auditabilidad
- Ayuda a cumplir con auditabilidad de resultados y cumplimiento normativo
Sistemas, software e ingeniería de datos
- Mejora la calidad del soporte en programación, diseño de proyectos, arquitectura backend e ingeniería de datos frente a LLM sin razonamiento
- Es eficaz para tareas de múltiples pasos como integración con herramientas externas y APIs
Generación de contenido y comunicación
- Magistral también muestra resultados destacados en escritura creativa y storytelling
- Puede generar no solo texto coherente, sino también ideas originales e ingeniosas

Cómo usarlo y vías de despliegue

La versión Small puede descargarse y desplegarse por cuenta propia
La versión Medium puede usarse de inmediato en Le Chat (web), API y Amazon SageMaker
Próximamente tendrá soporte adicional en IBM WatsonX, Azure AI y Google Cloud Marketplace
La implementación on-premise y personalizada para empresas se gestiona por separado

1 comentarios

GN⁺ 2025-06-11

Comentarios de Hacker News

Comparto mi experiencia creando y subiendo directamente la versión GGUF del modelo Magistral Small en HuggingFace. Se puede ejecutar en ollama con el comando ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL, y en llama.cpp recomiendan usar sí o sí opciones como --jinja, --temp 0.7, --top-p 0.95. También sugieren aumentar la longitud de contexto de Ollama a más de 8192, y hay más guía disponible en la documentación oficial
- La comparación de benchmarks relacionada con DeepSeek es una parte interesante. El paper original de Magistral compara con las versiones DeepSeek-V3 (diciembre de 2023) y DeepSeek-R1 (enero de 2024), pero en realidad DeepSeek-R1-0528, la versión más reciente, parece un punto de comparación más justo. Por ejemplo, se menciona que R1 obtiene 79.8 en AIME 2024, mientras que R1-0528 llega a 91.4; en AIME 2025 también hay una gran diferencia, con 70 frente a 87.5 respectivamente. Los benchmarks más recientes de DeepSeek pueden verse aquí
- El paper de Magistral (PDF) parece realmente impresionante. Presenta varias mejoras al tratar GRPO, entre ellas: 1) eliminación de KL Divergence, 2) normalización por longitud total, 3) normalización de advantage por minibatch y 4) relajación de trust region
- Aunque hay riesgos con la verificación de edad, elogian muchísimo los modelos de Unsloth, diciendo que son una locura. Expresan satisfacción porque el modelo siempre funciona bien, y preguntan qué usa llama.cpp por defecto cuando no se incluye jinja
- Con la idea de no pensarlo demasiado, comparten como referencia este gist
Viendo solo los resultados de benchmark, queda claro que los modelos Magistral Small y Medium van por detrás de la versión más reciente de DeepSeek-R1 en todas las pruebas one-shot. El artículo ni siquiera menciona al DeepSeek-R1 más nuevo, y además cuesta más del doble, lo que deja la impresión de que incluso la empresa de IA más destacada de Europa está teniendo dificultades para seguir el ritmo de la tendencia tecnológica actual
- Como el DeepSeek R1 inicial logró un rendimiento impresionante con muy poco cómputo, resulta curioso que el nuevo R1 no aplaste a o3, 2.5 Pro y otros en todos los benchmarks. Magistral Small (24B) obtiene 70.7% en AIME 2024, mientras que R1 distill (32B) logra 72.6%. Con majority voting@64, Magistral Small sube hasta 83.3%, superando al R1 completo. También explican que un modelo de 24B puede correrse incluso en una GPU gamer común, lo que le da una gran ventaja en accesibilidad. Agregan un enlace al modelo Distill
- En la competencia actual entre modelos de IA, aunque salir 6 a 12 meses después del modelo más reciente no sea ideal, optar por no gastar sumas astronómicas sigue teniendo mucho sentido desde el punto de vista de ingeniería. Claro, entienden la lógica de los clientes que solo quieren “lo mejor” en términos de cuota de mercado, pero se preguntan qué tan importante es esa cuota en un negocio que pierde dinero para siempre
- Al ver la estructura de inversionistas de Mistral, resaltan que en la práctica no es realmente una empresa europea, sino que su propiedad principal está en manos de capital estadounidense. Más detalles en este enlace sobre inversionistas
- Aunque su competitividad sea algo menor, opinan que es estratégicamente indispensable que cada región tenga sus propios modelos con control sobre el entrenamiento. Pero si la brecha tecnológica se vuelve demasiado grande, existe el riesgo de que desde la perspectiva del usuario se consideren inútiles
- Llama la atención que Mistral haya construido un pipeline de entrenamiento completamente “independiente”. Se supone que competidores como DeepSeek probablemente entrenaron con datos de GPT-4, o1 y similares
Comparten unas notas sobre la aplicación directa del modelo Magistral mediante Ollama, API y el plugin llm-mistral en este registro
- Le preguntan a Simon cuál es la diferencia real entre “dos pelícanos andando en bicicleta”. Suponen que la versión pequeña se corrió en local y la versión más potente a través de la API
Relato de uso real: cuando el modelo Mistral OCR estaba siendo muy promocionado, tuvieron que hacer OCR a un PDF de 600 páginas. Aunque todo era texto monoespaciado, el resultado del OCR reconoció el 80% como imágenes y devolvió casi puro espacio en blanco, quedando muy por debajo de tesseract. Un mes después, tras cargar con la factura por esos pésimos resultados, borraron la cuenta. Puede que este nuevo producto sea mejor que los anteriores, pero el marketing excesivo de Mistral ya les quitó el entusiasmo
Genera confusión lo dispersa y limitada que es la selección de muestras para benchmarks. Solo comparan Magistral Medium con Deepseek V3, R1 y Mistral Medium 3; no se entiende por qué quedaron fuera Magistral Small, Alibaba Qwen o las versiones mini de o3/o4
Para probar razonamiento lógico y conocimiento general de nivel Wikipedia, le preguntaron a Mistral AI “dónde pasa migración un ciudadano brasileño que viaja de São Paulo a París con escala en Lisboa”. Mistral AI respondió “solo en París”, y cuando le señalaron un artículo de Wikipedia, corrigió a “en Lisboa”. Meta AI (Llama 4) respondió que en realidad no hacía falta en ninguno de los dos, mostrando poca precisión. Tienen curiosidad por las respuestas de otros LLM
- Opinan que la pregunta en sí es básicamente una trampa. En la práctica, señalan que no solo habría control en Lisboa como punto de entrada a Schengen, sino también en São Paulo como punto de salida de Brasil/Mercosur
- La respuesta de Gemini (2.5 Flash) les pareció impresionante. Flujo principal: los ciudadanos brasileños están exentos de visa Schengen por hasta 90 días. El control de entrada ocurre en Lisboa, y el vuelo a París se trata como vuelo interno dentro de Schengen, así que no hay control adicional en París. También se menciona que en 2026 se introducirá la autorización electrónica ETIAS, pero eso sería una autorización previa y no cambia el lugar del control
- Señalan que incluso quien hizo la pregunta está confundido sobre la respuesta, y ven algo interesante en este tipo de prueba: permite comparar qué tan convincentemente responden los LLM
- Dejan abierta la posibilidad de que Llama 4 quizá tenga razón, dado que podría existir un acuerdo especial de exención de visa entre Brasil y Portugal
Dicen que les gustaría que incluyeran Qwen3 en la tabla de benchmarks. Incluso Qwen3-4B rinde casi al nivel de Magistral-22B, y Qwen3-30B-A3B muestra resultados claramente superiores
- Evalúan que el modelo 30-A3B es realmente impresionante. Al correrlo en local sin costo de API, ofrece un rendimiento incluso mejor que modelos cerrados de hace 1 o 2 años. En tareas de programación, en particular, lo valoran por encima de gpt-4o
- Preguntan si existe algún sitio automatizado para benchmarks de distintos modelos. Ellos lo probaron directamente y Qwen3-30B-A3B sigue dando el mejor rendimiento bajo condiciones similares de parámetros y memoria
- Consideran que Qwen3 es el modelo de razonamiento más impresionante que han evaluado hasta ahora
- Opinan que Mistral siempre ha sido poco práctico porque otros modelos resultaban mejores. Solo le encuentran sentido por el hecho de ser europeo. Creen que el nombre Mistral seguirá sonando, independientemente de su desempeño
Comparten una curiosidad etimológica. Tanto "mistral" como "magistral" derivan de la idea de “masterly” (propio de un maestro, experto). mistral viene originalmente del occitano y en inglés hoy se usa sobre todo para referirse al viento del Mediterráneo. magistral es la forma adjetiva de "magister". Sugieren que encontrar más palabras relacionadas y registrar dominios podría incluso ser una oportunidad de negocio
Se preguntan cuántos modelos reasoning de pesos abiertos más existen. Imaginan si sería posible correr varios modelos al mismo tiempo sobre un mismo problema. También les parece interesante que hayan lanzado la versión Small y dejado Medium como servicio de pago. Se preguntan si Medium podría usarse como una especie de cadena conectando varias ejecuciones de Small
- Piensan que Qwen 3, DeepSeek R1 y Phi-4 Reasoning son por ahora los mejores modelos reasoning de pesos abiertos
- En la práctica, creen que solo DeepSeek realmente cuenta, y que con los modelos distill ya se puede correr en hardware de consumo común
Se preguntan si la cantidad excesiva de guiones en-dash en el copy de marketing refleja también el estilo de texto generado por el modelo. Si es así, sugieren que debería corregirse
- En uno de los textos promocionales, se enfatiza que Magistral es un gran compañero para trabajo creativo y que incluso puede generar texto “extrañamente peculiar” si hace falta
- Mencionan la cifra de 49 guiones en-dash y 59 comas, una proporción que llama bastante la atención
- Analizan que esto parece ser solo parte del estilo de marketing de Mistral, ya que no se observa el mismo nivel de uso de en-dash en los textos generados por el modelo
- Comparten la experiencia de que en LibreOffice, al escribir "-" y luego presionar la barra espaciadora, a veces se convierte en un en-dash, así que lo corrigen a propósito para evitar malentendidos
- Bromean con que en el ámbito legal, en realidad, existe una afición especial por el en-dash

Magistral — Mistral AI presenta su primer modelo de razonamiento

Magistral — Mistral AI presenta su primer modelo de razonamiento

Detalles del modelo y la tecnología

Código abierto y participación de la comunidad

Casos de uso amplios

Estrategia y operaciones de negocio

Industrias reguladas y sector público

Sistemas, software e ingeniería de datos

Generación de contenido y comunicación

Cómo usarlo y vías de despliegue

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News