Presentan Mistral Medium 3.5
(mistral.ai)- Modelo 128B Dense, que integra ejecución de instrucciones, razonamiento y programación en un solo conjunto de pesos, con soporte para una ventana de contexto de 256k
- Permite ajustar el esfuerzo de razonamiento por solicitud, para cubrir desde chats simples hasta tareas agénticas complejas con un solo modelo
- SWE-Bench Verified 77.6% y 91.4 puntos en τ³-Telecom, superando a Devstral 2 y Qwen3.5 397B A17B
- Se entrenó de nuevo el codificador de visión para poder manejar tamaños de imagen y relaciones de aspecto variables
- Con el agente remoto Vibe, las sesiones de programación se ejecutan de forma asíncrona en la nube, se pueden correr varias en paralelo y recibir una notificación al completarse
- Se puede iniciar desde CLI o Le Chat y, al teletransportar una sesión local a la nube, se transfieren tal cual el historial, el estado y los registros de aprobación
- Cada sesión se ejecuta en un sandbox aislado y, al finalizar, se crea automáticamente un GitHub PR
- Integración con herramientas de desarrollo existentes como GitHub, Linear, Jira, Sentry, Slack y Teams
- Adecuado para tareas repetitivas y bien definidas como refactorización de módulos, generación de pruebas, actualización de dependencias, investigación de CI y corrección de bugs
- El modo Work de Le Chat (preview) usa varias herramientas a la vez, como correo, calendario y mensajería, para completar automáticamente tareas de varios pasos hasta terminarlas
- Los conectores vienen activados por defecto, muestra todas las llamadas a herramientas y la base de su razonamiento, y para tareas sensibles solicita aprobación explícita
- El precio de la API es de $1.5 por millón de tokens de entrada y $7.5 por millón de tokens de salida
- Los pesos abiertos se publican bajo una licencia MIT modificada, y es posible hacer self-hosting con un mínimo de 4 GPU
1 comentarios
Comentarios de Hacker News
No sé qué están viendo todos en los comentarios. Este modelo no supera a otros modelos, pero sí es competitivo para su tamaño
GLM 5.1 es excelente, pero incluso en Q4 necesita unos 400GB, y Kimi K2.5 también es bueno, pero con cuantización Q4 necesita casi 600GB
Este modelo puede correr en 70GB de VRAM con Q4, así que ya se acerca al terreno de consumo. Estamos hablando de poder comprar un Mac Studio con 128GB de RAM por unos 3500 dólares
No sé si la gente obsesionada con Claude solo usa Opus, pero Sonnet ya era muy capaz en el plan Pro. Este modelo corre en local, supera al Sonnet más reciente, y no te cobra extra ni te bloquea la cuenta arbitrariamente porque haya un
HERMES.mden el repoMistral nunca ha sido competitivo en la frontera, pero quizá ese no sea el papel que deberíamos esperar de Mistral. Si es un modelo de Pareto que te da el 80% de la frontera por el 20% del costo/tamaño, ya suena bastante bien
Puedes ejecutar un modelo así en una Mac de 128GB, pero primero hay que ver si Q4 mantiene suficiente calidad. Cada modelo tiene una sensibilidad a la cuantización distinta, y la velocidad real también importa
En tareas asíncronas o en segundo plano, la velocidad de procesamiento del prompt y de generación de tokens importa menos, pero muchos compradores de Mac Studio se dieron cuenta por las malas de que la capacidad de respuesta no es tan buena como la de modelos alojados en hardware serio en la nube
Para la mayoría que no tiene una necesidad fuerte de procesamiento on-premise, quizá el mejor uso de este modelo sea consumirlo a través de uno de los proveedores hospedados en OpenRouter y pagar por token
Casi todos los modelos de pesos abiertos lanzados este año decían igualar o superar a Sonnet, pero aunque en benchmarks queden claramente por delante, en la práctica todavía no he sentido que sea así
HERMES.md, pero quien tenga curiosidad puede encontrar información aquí https://github.com/anthropics/claude-code/issues/53262Me gusta la expresión Claude Pilled
El benchmark está hecho con F8_E4M3, y eso no lo puedes correr en ninguna Mac
Sonnet tiene 1M tokens de contexto, mientras que este modelo tiene 256k, y en local es muy probable que ni siquiera eso se pueda aprovechar bien
Sonnet es rápido incluso a través de red, pero este modelo será mucho más lento
Da pena que los modelos open source fuera de China parezcan estar al menos una generación atrás
Siempre apoyo a Mistral. La diversidad de modelos y de países importa
Este modelo parece una base sólida para construir encima, y ojalá en 3.6/3.7 lleguen más mejoras. Viendo los benchmarks de computer use, parece que el pipeline de visión todavía tiene margen de mejora, aunque eso es solo una suposición
Al ver que algunos resultados de benchmarks salen distintos, da la impresión de que no copiaron logs frontier sino que realmente entrenaron un modelo independiente. Eso también es muy importante
Que existan arquitecturas de pesos distintas dentro de modelos concretos parece una ventaja en sí misma desde la perspectiva de la arquitectura global del sistema
Que Mistral siga sacando modelos confiables es bueno para el mercado
Si los compradores van a tener poder de negociación en precio y despliegue, hay que salir de una estructura donde solo se elige entre dos compañías
Comparado con otros LLM hospedados que he probado, Mistral parece ser el único que usa encabezados CSP bastante estrictos
Si le pides que te haga un sitio con bibliotecas JavaScript, en Le Chat no puedes ver el preview aunque tenga canvas mode
A veces solo quiero probar algo rápido en la web cuando sale un release nuevo, pero es difícil si no pagas o no usas un agent harness
De verdad dibuja muy mal en SVG https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
Le pedí ayuda para configurar un servidor MCP en Vibe, y explicó con total seguridad que MCP era MineCraft Protocol, luego se puso a buscar binarios de Minecraft en la computadora
Todos los modelos fallan en eso; algunos simplemente fallan de forma más divertida
Estoy usando mistral-medium-2508 para tareas de transformación de texto, y para mi caso da mejores resultados que mistral-large
Quiero probar también el nuevo modelo, pero es mucho más caro y lo presentan como un modelo de coding/agentic, así que no me queda claro si busca reemplazar al medium anterior
mistral-medium-2508 costaba $0.4/$2 por 1M tokens, y mistral-medium-3.5 cuesta $1.5/$7.5
Da resultados casi al nivel de Sonnet por 90% menos. Nunca lo usaría para programar, pero para esta tarea de análisis de texto ha sido muy bueno. Incluso mucho mejor que los modelos chinos más recientes
Por eso esperaba este release, pero cuesta 5 veces más que el Mistral Large actual. Me preocupa que terminen retirando el Large barato al cambiar de release
El problema de este modelo es que DeepSeek v4 Flash corre sorprendentemente bien con cuantización de 2 bits https://github.com/antirez/llama.cpp-deepseek-v4-flash
En un M3 Ultra da 30 t/s de generación y 400 t/s de prefill, y en una MacBook Pro M3 Max de 128GB tampoco va mucho más lento
Usado con opencode/pi funciona como un buen agente de coding y el tool calling es muy estable. Esa velocidad es algo que un modelo denso de 120B jamás podrá alcanzar
Así que no solo tiene que competir con modelos cuantizados a 4 bits de tamaño similar, sino también con DeepSeek v4 Flash, que es un archivo GGUF de 86GB, y desde una perspectiva práctica de inferencia local no lo tendrá fácil para ganar
Incluso hay mejoras de velocidad que todavía no se han subido y se van a hacer push pronto. Puede que el árbol actual sea un poco más lento, pero igual sigue siendo muy usable
Hay algo que no entiendo aunque soy fan de Mistral y estoy en Europa. Mistral abrió la corriente de MoE de pesos abiertos con Mixtral, así que no entiendo por qué ahora lanza un modelo denso bastante grande
De esta forma le costará competir de manera confiable tanto en inferencia local como remota. El modelo está lejos del SOTA y además el costo de servirlo no es barato
Los modelos densos sí tienen un lugar en el rango de decenas de miles de millones de parámetros, como Qwen 3.6 27B, pero si te vas a 5 veces eso, ya no encaja a menos que aplaste en capacidad a otros modelos que exigen la misma VRAM
Eso casi no tiene relación con cómo se comporta en un workflow agéntico. Ya sabemos que en cuantización Q2 muchas veces la calidad se degrada bastante
Si este Flash cuantizado mantiene una calidad y rendimiento adecuados incluso con contextos más largos, entonces podría ser un competidor bastante razonable dentro de su misma clase de pesos frente a modelos como Qwen 3 Coder-Next 80B, conservando además lo que parece ser una capacidad clave de la serie V4
Este release de Mistral vuelve a hacerme sentir la brecha entre los laboratorios frontier y el resto de los jugadores
Antes de los agentes, las diferencias entre modelos no siempre eran tan claras, y cada modelo tenía su propio encanto
Ahora ya no quiero usar nada que esté por debajo de un modelo frontier. La diferencia de capacidad es enorme, y elegir uno inferior tiene un costo real de productividad
Siempre me han gustado labs pequeños como Mistral y especialmente Cohere, pero hace bastante que ninguno de los releases de esas dos empresas me entusiasma
Aun así, uso mistral voxtral realtime todos los días y es excelente
Y hace dos años ni se diga
Pero Claude Code es bastante mejor que Codex, y Codex es claramente mejor que Gemini-cli
En ese contexto, no sorprende que Claude Code sea mucho mejor que los modelos no-frontier en coding agéntico. Incluso es bastante mejor que otros modelos frontier para tareas agénticas especializadas
En la mayoría de las tareas, incluidas tareas de programación complejas, casi no se puede distinguir la diferencia entre modelos frontier y modelos como GPT-4.1
Para notar la diferencia realmente tienes que fijarte en cosas como la ventana de contexto, ciertos aspectos del tool calling o de los pasos de razonamiento
Además, los modelos frontier suelen usar un enfoque de fuerza bruta para sacar resultados, lo que hace que el costo de ejecución sea mucho más alto. No solo el costo que aparece en la factura, sino también el tiempo de espera hasta que salga cualquier resultado
Y ni hablemos de los modelos locales
Parece que Mistral está jugando a largo plazo aquí. Modelos más pequeños, menor costo y un rendimiento en general lo suficientemente bueno
Está bien, pero no es nada especial. Aun así, siempre es buena noticia oír de un modelo que no sea ni de EE. UU. ni de China
Da risa que ahora 128B se considere Medium
Hubo un tiempo en que GPT-2 de 355M parámetros era considerado medium
Quizá al final ese juicio sí era correcto