- La serie Mistral 3 está compuesta por modelos compactos de 3B, 8B y 14B y por Mistral Large 3 con 41B de parámetros activos y 675B de parámetros totales, conformando una nueva generación de modelos de IA de código abierto
- Todos los modelos se publican con licencia Apache 2.0, por lo que desarrolladores y empresas pueden usarlos y personalizarlos libremente
- Mistral Large 3 adopta una arquitectura Mixture-of-Experts entrenada con 3,000 GPUs NVIDIA H200, logrando un rendimiento de primer nivel en diálogos multilingües y comprensión de imágenes
- Ministral 3 se diseñó para entornos de edge, ofrece una excelente relación rendimiento/precio y su modelo de razonamiento (reasoning) alcanzó 85% de precisión en AIME ‘25
- Mistral 3 está disponible de inmediato en plataformas clave como Mistral AI Studio, Hugging Face, AWS y Azure, con el objetivo de ampliar el ecosistema de IA abierta
Resumen de Mistral 3
- Mistral 3 es una familia de modelos de próxima generación de Mistral AI, formada por modelos densos pequeños (3B, 8B y 14B) y el modelo grande y disperso Mistral Large 3
- Mistral Large 3 usa una arquitectura Mixture-of-Experts (MoE) con 41B parámetros activos y 675B parámetros totales
- Todos los modelos están liberados bajo licencia Apache 2.0 para su uso por la comunidad open source
- Los modelos se ofrecen en diversos formatos comprimidos, mejorando el acceso mediante inteligencia distribuida
- La familia Ministral se considera la OSS con la mejor relación costo-rendimiento
Mistral Large 3: modelo de pesos abiertos de referencia
- Mistral Large 3 es un modelo de pesos abiertos entrenado desde cero con 3,000 GPUs NVIDIA H200
- Es el primer modelo Mixture-of-Experts desde la serie Mixtral, incorporando los avances de preentrenamiento de Mistral
- Después del entrenamiento, muestra un rendimiento comparable al de los mejores modelos de pesos abiertos en rendimiento de prompting general y logra excelentes resultados también en comprensión de imágenes y en diálogo multilingüe no inglés
- En el leaderboard de LMArena quedó en el 2.º lugar entre modelos OSS no-reasoning y en el 6.º lugar entre todos los modelos OSS
- Se han publicado las versiones base e instruct de tuning; la versión reasoning se lanzará próximamente
Colaboración con NVIDIA, vLLM y Red Hat
- Mistral Large 3 es de fácil acceso para la comunidad de código abierto gracias a la colaboración con vLLM y Red Hat
- Proporciona checkpoints en formato NVFP4 fabricados con llm-compressor
- Permite ejecución eficiente mediante vLLM en sistemas Blackwell NVL72, 8×A100 y 8×H100
- Con NVIDIA, hay soporte de inferencia de baja precisión en TensorRT-LLM, SGLang y otros
- Integración de kernels MoE y de atención de Blackwell, servicio separado de prefill/decode y decodificación especulativa (speculative decoding)
- También se habilita despliegue optimizado en entornos edge con DGX Spark, RTX PC y dispositivos Jetson
Ministral 3: modelos inteligentes para edge
- La serie Ministral 3 para entornos de edge y locales se ofrece en tres tamaños: 3B, 8B y 14B
- Cada modelo se publica en tres variantes: base, instruct y reasoning
- Todas las variantes incluyen capacidades de comprensión de imágenes y procesamiento multilingüe
- Se la considera la OSS con mejor relación costo-rendimiento,
y su modelo instruct alcanza rendimiento igual o mejor que los competidores, ahorrando tokens al nivel de una décima parte
- La variante de reasoning destaca en entornos donde prima la precisión,
y el modelo de 14B logró 85% de precisión en AIME ‘25
Despliegue y accesibilidad
- Mistral 3 está disponible de inmediato en las siguientes plataformas
- Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
- Próximamente también estará disponible en NVIDIA NIM y AWS SageMaker
- Se ofrece servicio de entrenamiento de modelos personalizados para empresas
- Incluye soporte para tareas especializadas por dominio, mejora de rendimiento con datasets propios, despliegue en entornos especiales, entre otros
Valor clave de Mistral 3
- Rendimiento de vanguardia y acceso abierto: ofrece rendimiento de nivel de modelos cerrados de forma abierta
- Soporte multimodal y multilingüe: comprende texto, imágenes y lógica en más de 40 idiomas
- Eficiencia escalable: cubre un rango de 3B~675B parámetros, respondiendo desde edge hasta enterprise
- Utilidad adaptable: aplicable a flujos de trabajo de codificación, análisis documental, uso de herramientas y otros casos de uso
Próximos pasos
- La documentación de los modelos y material técnico está disponible en Mistral Docs y AI Governance Hub
- El uso de API está habilitado de inmediato a través de Hugging Face y la plataforma Mistral AI
- Se gestiona un canal de consultas para entrenamiento y fine-tuning personalizados para empresas
- La participación comunitaria está disponible en Twitter/X, Discord, GitHub
Conclusión
- Mistral 3 tiene como objetivo expandir un ecosistema de IA abierta basado en transparencia, accesibilidad y evolución conjunta
- Abre nuevas posibilidades en razonamiento, eficiencia y aplicaciones en uso real, y se consolida como un modelo abierto de nueva generación que permite “convertir la comprensión en acción”
1 comentarios
Comentarios de Hacker News
En phrasing.app uso modelos de lenguaje grandes (LLM) para organizar datos en un formato consistente.
Hace unos meses me cambié a mistral-3-medium-0525, porque gpt-5 me daba salidas raras con frecuencia y fue un dolor de cabeza.
Mistral es rápido, barato y sigue con precisión las instrucciones de formato. En uso real es mucho mejor de lo que sugieren los benchmarks.
Muy de vez en cuando (0.1%) da resultados extraños, pero es mucho más estable que la tasa de fallos del 15% de gpt-5.
Voy a probar pronto los modelos nuevos y compartiré los resultados.
En la API, siento que la mayor ventaja es que el modelo se comporte como uno espera.
Ahora elijo y uso los modelos que necesito a través de Openrouter.
Creo que el aumento reciente de chatbots basados en publicidad se debe a que, a diferencia de los benchmarks, los usuarios reales no notan la diferencia y cancelan sus suscripciones pagadas.
Hoy OpenAI me ofreció otra vez un mes de prueba gratis, como si no recordara que ya la usé hace dos meses.
En especial, usar mistral-small con la batch API da una relación costo-rendimiento muy buena.
El sobreajuste puede reducir la utilidad real, y Chatbot Arena nació precisamente por este tipo de evaluación en uso real.
Pero incluso eso recibe críticas por inclinarse hacia cosas como ajustarse al formato o ser adulador.
Al final, creo que hacen falta más modelos especializados por tarea.
Pero la frase “Hand-crafted by humans” de phrasing.app me pareció un poco irónica, considerando que en realidad usan LLM avanzados.
¿O comparaste la tasa de error de Mistral con la tasa de fallos de gpt-5.1 en tareas complejas?
Y también me pregunto si Mistral tiene un modelo de Tool Use. Sería bueno ver un nuevo modelo para programación.
Me parece interesante que el nuevo modelo grande use la arquitectura DeepseekV2.
No se menciona en la página oficial, pero me parece positivo que los modelos open source adopten estructuras recientes.
K2 también tomó un enfoque parecido, y si ves el código real (
mistral_large_3.py), está basado en DeepseekV3.Como dice la frase “la ciencia siempre avanza sobre la apertura y el intercambio”, da gusto ver esta transparencia.
Ahora voy a probar en casa el modelo 14B, y también tengo expectativas por la función de Vision que se agregó.
En la página de Hugging Face incluso se indica que Mistral Large 3 queda por detrás de modelos especializados en Vision para tareas multimodales.
Sorprende que el modelo Vision de 3B se ejecute directamente en el navegador.
Descargas el modelo de 3GB y corre de inmediato, y hay una demo en Hugging Face.
También vale la pena ver el post de Simon Willison.
Me imagino algo que no solo describa la voz, sino también las acciones que ocurren en el video.
Qué gusto ver de vuelta a Mistral en Europa después de tiempo.
También es positivo que haya vuelto al open source con licencia Apache 2.0.
Durante un tiempo fue de lo mejor en modelos pequeños para GPU de consumo, y espero que este Ministral 14B rinda tan bien como sugieren los benchmarks.
Si hubiera sido solo dentro de Europa, habría sido difícil conseguir fondos para entrenamiento de IA a esta escala.
El nuevo modelo se ve genial, pero es una pena que no haya comparación con modelos SOTA como OpenAI, Google o Anthropic.
Por eso es difícil ubicar su posición general.
El mejor modelo tiene 1491 puntos y Mistral 1418, así que la brecha de rendimiento es pequeña.
Que tampoco lo comparen con GPT-OSS se ve como un movimiento algo conservador.
Apoyo el esfuerzo europeo.
Honestamente, siento que Deepseek 3.2 se llevó toda la atención ayer.
Es una lástima que esta comparación se base en Deepseek 3.1.
Según la noticia oficial, la versión 3.2 tuvo mejoras muy grandes.
Todavía no entiendo bien el incentivo para publicar buenos pesos de modelos.
Que OpenAI saque un modelo como gpt-oss podría ser por PR para benchmarks,
y parece que las empresas chinas están usando una estrategia parecida para mover la posición dominante de las big tech de Estados Unidos.
Me pregunto si seguirán saliendo buenos modelos open weights en el futuro.
Los open weights abren canales de ingresos secundarios, como servicios de fine-tuning para empresas.
Como la transparencia, el control, la privacidad y la reducción de costos son importantes para las empresas,
existe la posibilidad de que este ecosistema abierto termine comiéndose a los modelos cerrados a largo plazo.
Para servicios relacionados, ver Mistral Custom Model Training.
Incluso se mantiene entre los mejores puestos en la competencia AIME3 de Kaggle.
Publicar modelos abiertos dispara la valuación de la empresa y ayuda a conseguir GPU.
Eso sí, si al final no aparece un modelo de negocio sostenible, sería un gran problema.
Gemini sale adelante en benchmarks, pero en uso real se siente peor.
Comparé los puntajes agregados de benchmarks de varios modelos.
Gemini 3.0 Pro va primero con 84.8, DeepSeek 3.2 con 83.6 y GPT-5.1 con 69.2.
Mistral Large 3 queda bajo con 41.9, pero los modelos 14B, 8B y 3B están a nivel SOTA,
y no tienen problemas de censura como Qwen3.
Quisiera saber en qué áreas Gemini es tan fuerte.
En benchmarks Gemini sale como el mejor, pero en la práctica siento que queda por debajo de ChatGPT o Claude.
Dice tonterías con más frecuencia, y parece que Google solo está inflando el puntaje de benchmarks.
Ojalá el open source como Mistral termine comiéndose este mercado.
Funcionan como contrapeso del ecosistema, y eso importa para evitar monopolios.
Supongo que es porque está bien cubierto en sus datos de entrenamiento.