4 puntos por GN⁺ 2025-12-03 | 1 comentarios | Compartir por WhatsApp
  • La serie Mistral 3 está compuesta por modelos compactos de 3B, 8B y 14B y por Mistral Large 3 con 41B de parámetros activos y 675B de parámetros totales, conformando una nueva generación de modelos de IA de código abierto
  • Todos los modelos se publican con licencia Apache 2.0, por lo que desarrolladores y empresas pueden usarlos y personalizarlos libremente
  • Mistral Large 3 adopta una arquitectura Mixture-of-Experts entrenada con 3,000 GPUs NVIDIA H200, logrando un rendimiento de primer nivel en diálogos multilingües y comprensión de imágenes
  • Ministral 3 se diseñó para entornos de edge, ofrece una excelente relación rendimiento/precio y su modelo de razonamiento (reasoning) alcanzó 85% de precisión en AIME ‘25
  • Mistral 3 está disponible de inmediato en plataformas clave como Mistral AI Studio, Hugging Face, AWS y Azure, con el objetivo de ampliar el ecosistema de IA abierta

Resumen de Mistral 3

  • Mistral 3 es una familia de modelos de próxima generación de Mistral AI, formada por modelos densos pequeños (3B, 8B y 14B) y el modelo grande y disperso Mistral Large 3
    • Mistral Large 3 usa una arquitectura Mixture-of-Experts (MoE) con 41B parámetros activos y 675B parámetros totales
    • Todos los modelos están liberados bajo licencia Apache 2.0 para su uso por la comunidad open source
  • Los modelos se ofrecen en diversos formatos comprimidos, mejorando el acceso mediante inteligencia distribuida
  • La familia Ministral se considera la OSS con la mejor relación costo-rendimiento

Mistral Large 3: modelo de pesos abiertos de referencia

  • Mistral Large 3 es un modelo de pesos abiertos entrenado desde cero con 3,000 GPUs NVIDIA H200
    • Es el primer modelo Mixture-of-Experts desde la serie Mixtral, incorporando los avances de preentrenamiento de Mistral
  • Después del entrenamiento, muestra un rendimiento comparable al de los mejores modelos de pesos abiertos en rendimiento de prompting general y logra excelentes resultados también en comprensión de imágenes y en diálogo multilingüe no inglés
  • En el leaderboard de LMArena quedó en el 2.º lugar entre modelos OSS no-reasoning y en el 6.º lugar entre todos los modelos OSS
  • Se han publicado las versiones base e instruct de tuning; la versión reasoning se lanzará próximamente

Colaboración con NVIDIA, vLLM y Red Hat

  • Mistral Large 3 es de fácil acceso para la comunidad de código abierto gracias a la colaboración con vLLM y Red Hat
    • Proporciona checkpoints en formato NVFP4 fabricados con llm-compressor
    • Permite ejecución eficiente mediante vLLM en sistemas Blackwell NVL72, 8×A100 y 8×H100
  • Con NVIDIA, hay soporte de inferencia de baja precisión en TensorRT-LLM, SGLang y otros
    • Integración de kernels MoE y de atención de Blackwell, servicio separado de prefill/decode y decodificación especulativa (speculative decoding)
  • También se habilita despliegue optimizado en entornos edge con DGX Spark, RTX PC y dispositivos Jetson

Ministral 3: modelos inteligentes para edge

  • La serie Ministral 3 para entornos de edge y locales se ofrece en tres tamaños: 3B, 8B y 14B
    • Cada modelo se publica en tres variantes: base, instruct y reasoning
    • Todas las variantes incluyen capacidades de comprensión de imágenes y procesamiento multilingüe
  • Se la considera la OSS con mejor relación costo-rendimiento,
    y su modelo instruct alcanza rendimiento igual o mejor que los competidores, ahorrando tokens al nivel de una décima parte
  • La variante de reasoning destaca en entornos donde prima la precisión,
    y el modelo de 14B logró 85% de precisión en AIME ‘25

Despliegue y accesibilidad

  • Mistral 3 está disponible de inmediato en las siguientes plataformas
    • Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
    • Próximamente también estará disponible en NVIDIA NIM y AWS SageMaker
  • Se ofrece servicio de entrenamiento de modelos personalizados para empresas
    • Incluye soporte para tareas especializadas por dominio, mejora de rendimiento con datasets propios, despliegue en entornos especiales, entre otros

Valor clave de Mistral 3

  • Rendimiento de vanguardia y acceso abierto: ofrece rendimiento de nivel de modelos cerrados de forma abierta
  • Soporte multimodal y multilingüe: comprende texto, imágenes y lógica en más de 40 idiomas
  • Eficiencia escalable: cubre un rango de 3B~675B parámetros, respondiendo desde edge hasta enterprise
  • Utilidad adaptable: aplicable a flujos de trabajo de codificación, análisis documental, uso de herramientas y otros casos de uso

Próximos pasos

  • La documentación de los modelos y material técnico está disponible en Mistral Docs y AI Governance Hub
  • El uso de API está habilitado de inmediato a través de Hugging Face y la plataforma Mistral AI
  • Se gestiona un canal de consultas para entrenamiento y fine-tuning personalizados para empresas
  • La participación comunitaria está disponible en Twitter/X, Discord, GitHub

Conclusión

  • Mistral 3 tiene como objetivo expandir un ecosistema de IA abierta basado en transparencia, accesibilidad y evolución conjunta
  • Abre nuevas posibilidades en razonamiento, eficiencia y aplicaciones en uso real, y se consolida como un modelo abierto de nueva generación que permite “convertir la comprensión en acción”

1 comentarios

 
GN⁺ 2025-12-03
Comentarios de Hacker News
  • En phrasing.app uso modelos de lenguaje grandes (LLM) para organizar datos en un formato consistente.
    Hace unos meses me cambié a mistral-3-medium-0525, porque gpt-5 me daba salidas raras con frecuencia y fue un dolor de cabeza.
    Mistral es rápido, barato y sigue con precisión las instrucciones de formato. En uso real es mucho mejor de lo que sugieren los benchmarks.
    Muy de vez en cuando (0.1%) da resultados extraños, pero es mucho más estable que la tasa de fallos del 15% de gpt-5.
    Voy a probar pronto los modelos nuevos y compartiré los resultados.

    • Antes tenía suscripciones a varios chatbots, pero ahora voy alternando entre Grok, ChatGPT, Gemini, Deepseek y Mistral.
      En la API, siento que la mayor ventaja es que el modelo se comporte como uno espera.
      Ahora elijo y uso los modelos que necesito a través de Openrouter.
      Creo que el aumento reciente de chatbots basados en publicidad se debe a que, a diferencia de los benchmarks, los usuarios reales no notan la diferencia y cancelan sus suscripciones pagadas.
      Hoy OpenAI me ofreció otra vez un mes de prueba gratis, como si no recordara que ya la usé hace dos meses.
    • Tuve una experiencia parecida. Los modelos de Mistral no son los mejores en benchmarks, pero para tareas simples como clasificación o resumen son los más eficientes.
      En especial, usar mistral-small con la batch API da una relación costo-rendimiento muy buena.
    • Siento que hay límites en la forma de evaluar los LLM con benchmarks.
      El sobreajuste puede reducir la utilidad real, y Chatbot Arena nació precisamente por este tipo de evaluación en uso real.
      Pero incluso eso recibe críticas por inclinarse hacia cosas como ajustarse al formato o ser adulador.
      Al final, creo que hacen falta más modelos especializados por tarea.
    • Gracias por compartir casos de uso de los modelos de Mistral.
      Pero la frase “Hand-crafted by humans” de phrasing.app me pareció un poco irónica, considerando que en realidad usan LLM avanzados.
    • Me pregunto si de verdad quieres decir que gpt-5 da salidas raras con una probabilidad del 15%.
      ¿O comparaste la tasa de error de Mistral con la tasa de fallos de gpt-5.1 en tareas complejas?
      Y también me pregunto si Mistral tiene un modelo de Tool Use. Sería bueno ver un nuevo modelo para programación.
  • Me parece interesante que el nuevo modelo grande use la arquitectura DeepseekV2.
    No se menciona en la página oficial, pero me parece positivo que los modelos open source adopten estructuras recientes.
    K2 también tomó un enfoque parecido, y si ves el código real (mistral_large_3.py), está basado en DeepseekV3.
    Como dice la frase “la ciencia siempre avanza sobre la apertura y el intercambio”, da gusto ver esta transparencia.
    Ahora voy a probar en casa el modelo 14B, y también tengo expectativas por la función de Vision que se agregó.

    • Al final parece que concentraron el I+D en copiar Deepseek, y le dieron menos importancia a Vision, que era la única función adicional.
      En la página de Hugging Face incluso se indica que Mistral Large 3 queda por detrás de modelos especializados en Vision para tareas multimodales.
    • La verdad, hoy en día creo que más que las diferencias de arquitectura, lo que determina el rendimiento del modelo son los datos, el tuning y el pipeline.
    • Pedir que publiquen todo y luego criticarlos cuando usan lo publicado me parece un doble estándar.
  • Sorprende que el modelo Vision de 3B se ejecute directamente en el navegador.
    Descargas el modelo de 3GB y corre de inmediato, y hay una demo en Hugging Face.
    También vale la pena ver el post de Simon Willison.

    • Con esta tecnología se podrían crear herramientas de accesibilidad, como una herramienta de descripción de video en tiempo real para personas con discapacidad visual.
      Me imagino algo que no solo describa la voz, sino también las acciones que ocurren en el video.
  • Qué gusto ver de vuelta a Mistral en Europa después de tiempo.
    También es positivo que haya vuelto al open source con licencia Apache 2.0.
    Durante un tiempo fue de lo mejor en modelos pequeños para GPU de consumo, y espero que este Ministral 14B rinda tan bien como sugieren los benchmarks.

    • En realidad, creo que este logro se debe al financiamiento de VC de Estados Unidos.
      Si hubiera sido solo dentro de Europa, habría sido difícil conseguir fondos para entrenamiento de IA a esta escala.
  • El nuevo modelo se ve genial, pero es una pena que no haya comparación con modelos SOTA como OpenAI, Google o Anthropic.
    Por eso es difícil ubicar su posición general.

    • Si miras los resultados de LMArena, Mistral Large 3 está en el puesto 28, y la diferencia de puntaje con los modelos de arriba no es tan grande.
      El mejor modelo tiene 1491 puntos y Mistral 1418, así que la brecha de rendimiento es pequeña.
    • Pero parece que las empresas evitan este tipo de comparación porque podría caer bajo regulaciones publicitarias.
    • De todos modos, Mistral seguramente sabe que le cuesta competir con modelos cerrados.
      Que tampoco lo comparen con GPT-OSS se ve como un movimiento algo conservador.
    • Creo que el simple hecho de no haber publicado comparaciones ya dice bastante.
  • Apoyo el esfuerzo europeo.

    • Pero tampoco hay que olvidar que dentro de Europa también hay mucha investigación activa en IA, como DeepMind en Londres.
    • Quiero equilibrarlo con el chiste de que “Windows 11 es la mayor obra maestra de Estados Unidos”.
  • Honestamente, siento que Deepseek 3.2 se llevó toda la atención ayer.
    Es una lástima que esta comparación se base en Deepseek 3.1.
    Según la noticia oficial, la versión 3.2 tuvo mejoras muy grandes.

  • Todavía no entiendo bien el incentivo para publicar buenos pesos de modelos.
    Que OpenAI saque un modelo como gpt-oss podría ser por PR para benchmarks,
    y parece que las empresas chinas están usando una estrategia parecida para mover la posición dominante de las big tech de Estados Unidos.
    Me pregunto si seguirán saliendo buenos modelos open weights en el futuro.

    • Porque es difícil ganar dinero con modelos cerrados.
      Los open weights abren canales de ingresos secundarios, como servicios de fine-tuning para empresas.
      Como la transparencia, el control, la privacidad y la reducción de costos son importantes para las empresas,
      existe la posibilidad de que este ecosistema abierto termine comiéndose a los modelos cerrados a largo plazo.
      Para servicios relacionados, ver Mistral Custom Model Training.
    • gpt-oss no es un modelo solo para benchmarks; en realidad tiene una capacidad muy fuerte para resolver problemas matemáticos.
      Incluso se mantiene entre los mejores puestos en la competencia AIME3 de Kaggle.
    • Como ahora el modelo de ingresos es incierto, las empresas de IA están más enfocadas en asegurar financiamiento de VC que en hacer el mejor modelo posible.
      Publicar modelos abiertos dispara la valuación de la empresa y ayuda a conseguir GPU.
      Eso sí, si al final no aparece un modelo de negocio sostenible, sería un gran problema.
    • gpt-oss tiene un rendimiento excelente en tool calling y en general es estable.
    • Da mucho la impresión de que Google manipula los benchmarks.
      Gemini sale adelante en benchmarks, pero en uso real se siente peor.
  • Comparé los puntajes agregados de benchmarks de varios modelos.
    Gemini 3.0 Pro va primero con 84.8, DeepSeek 3.2 con 83.6 y GPT-5.1 con 69.2.
    Mistral Large 3 queda bajo con 41.9, pero los modelos 14B, 8B y 3B están a nivel SOTA,
    y no tienen problemas de censura como Qwen3.

    • Me intriga la gran diferencia entre Gemini 3 y GPT-5.1/Opus 4.5.
      Quisiera saber en qué áreas Gemini es tan fuerte.
  • En benchmarks Gemini sale como el mejor, pero en la práctica siento que queda por debajo de ChatGPT o Claude.
    Dice tonterías con más frecuencia, y parece que Google solo está inflando el puntaje de benchmarks.
    Ojalá el open source como Mistral termine comiéndose este mercado.

    • El objetivo de los LLM de open weights no es vencer a los modelos cerrados.
      Funcionan como contrapeso del ecosistema, y eso importa para evitar monopolios.
    • Yo usé Gemini mientras aprendía a montar un clúster k8s on-prem, y en ese tema fue muy preciso.
      Supongo que es porque está bien cubierto en sus datos de entrenamiento.
    • En mis preguntas, Gemini 3 tuvo menos alucinaciones que GPT-5.1.
    • Personalmente, Gemini fue el que más me decepcionó, y siento que su promoción excesiva se nota demasiado poco natural.
    • Fuera de tareas de programación, Gemini puede mostrar sustento más fácilmente gracias a la integración con Google Search.