Mistral Medium 3.5
(mistral.ai)- El modelo denso de 128B maneja instruction-following, razonamiento y coding con un solo conjunto de pesos, y está disponible como public preview
- Soporta una ventana de contexto de 256k y la configuración de reasoning effort por solicitud, lo que permite usar el mismo modelo tanto para respuestas cortas en chat como para ejecuciones agentic complejas
- Las sesiones de Vibe coding ahora se ejecutan de forma asíncrona en la nube y pueden correr varias sesiones en paralelo; además, una sesión local del CLI puede teleportarse a la nube junto con su history, task state y approval
- El Work mode de Le Chat es un agentic mode basado en Mistral Medium 3.5 que aprovecha el contexto de connected tools, documents, mailboxes y calendars, y solicita aprobación explícita para tareas sensibles
- El modelo se convierte en el modelo predeterminado de Le Chat y reemplaza a Devstral 2 en Vibe CLI; el precio de la API es de $1.5 por cada 1 millón de input tokens y $7.5 por cada 1 millón de output tokens
Lanzamiento de Mistral Medium 3.5
- El encoder de visión fue entrenado desde cero para manejar distintos tamaños de imagen y aspect ratio
- Obtuvo 77.6% en SWE-Bench Verified, superando a modelos como Devstral 2 y Qwen3.5 397B A17B
- En τ³-Telecom registró 91.4 y se enfoca en múltiples llamadas a herramientas y en generar structured output que pueda ser consumido por downstream code
Agente remoto de coding de Vibe
- Las sesiones de coding ahora se ejecutan de forma asíncrona en la nube, por lo que pueden seguir trabajando en tareas largas mientras el usuario está ausente
- Se pueden ejecutar varias sesiones en paralelo, evitando que el desarrollador se convierta en un cuello de botella en cada paso que realiza el agente
- El agente en la nube puede iniciarse desde Mistral Vibe CLI o desde Le Chat
- Durante la ejecución se pueden ver el file diff, las tool calls, el progress state y las preguntas del agente
- Una sesión local del CLI puede teleportarse a la nube, llevando consigo el session history, task state y approval
Estructura integrada con el flujo de trabajo de desarrollo
- Vibe se ubica entre los sistemas que los equipos de desarrollo ya usan y mantiene human-in-the-loop en los puntos necesarios
- En GitHub se conecta con el código y los pull requests, y en Linear y Jira con los issues
- Sentry se conecta para el manejo de incidentes, y apps como Slack y Teams para reporting
- Cada sesión de coding se ejecuta en un sandbox aislado y puede incluir ediciones extensas e instalaciones
- Al terminar el trabajo, el agente puede abrir un pull request en GitHub y enviar notificaciones, para que el desarrollador revise los resultados en lugar de cada keystroke
Tareas de coding adecuadas y ejecución en Le Chat
- El agente remoto de Vibe está orientado a trabajo bien definido que requiere criterio del desarrollador, pero consume mucho tiempo
- Entre las tareas objetivo están module refactor, test generation, dependency upgrade, CI investigation y bug fix
- Al orquestar Workflows desde Mistral Studio, Mistral Vibe puede usarse dentro de Le Chat
- Esta función se creó primero para el entorno interno de coding y después se usó para enterprise customers
- Ahora es posible iniciar tareas de coding desde la web y ejecutar varias en paralelo sin quedar atado al terminal local
- Las tareas creadas en Le Chat se ejecutan en el mismo remote runtime que usan el CLI y la web, y luego regresan como una finished branch o un draft PR
Work mode de Le Chat
- El Work mode es un agentic mode de Le Chat para manejar tareas complejas, impulsado por un nuevo harness y por Mistral Medium 3.5
- El agente se convierte en el execution backend del propio assistant, permitiendo que Le Chat lea y escriba, use varias herramientas a la vez y gestione proyectos de varios pasos
-
Flujos de trabajo entre herramientas
- Puede ponerse al día con email, messages y calendar en una sola ejecución
- Puede preparar reuniones con el contexto de los asistentes, noticias recientes y talking points obtenidos de las fuentes
-
Investigación y síntesis
- Puede investigar un tema en la web, en documentos internos y en connected tools
- Puede crear briefs o reports estructurados que luego se pueden editar, exportar o enviar
-
Bandeja de entrada y trabajo en equipo
- Puede hacer inbox triage y redactar borradores de respuesta
- Puede crear issues en Jira a partir de discusiones con el equipo y clientes, y enviar un summary al equipo por Slack
- Las sesiones duran más que una respuesta normal de chat y pueden continuar a lo largo de varios turnos y pruebas hasta completarse
- En Work mode, los connectors están activados por defecto en lugar de seleccionarse manualmente, por lo que se accede al contexto de documents, mailboxes, calendars y otros sistemas
- Todas las acciones del agente son visibles y se puede revisar cada tool call y su thinking rationale
- Para tareas sensibles como enviar mensajes, redactar documentos o modificar datos, Le Chat solicita aprobación explícita según los permisos
Disponibilidad y precios
- Mistral Medium 3.5 está disponible en Mistral Vibe y Le Chat
- Los remote coding agents y el Work mode de Le Chat funcionan con Mistral Medium 3.5 en los planes Pro, Team y Enterprise
- El precio de la API es de $1.5 por cada 1 millón de input tokens y $7.5 por cada 1 millón de output tokens
- Los open weights están disponibles en Hugging Face bajo una modified MIT license
- También está alojado para prototipado en el endpoint con aceleración NVIDIA GPU de build.nvidia.com
- También está disponible como NVIDIA NIM, un microservicio de inferencia containerizado y escalable
1 comentarios
Comentarios de Hacker News
No sé qué están viendo todos en los comentarios. Este modelo no supera a otros modelos, pero sí es competitivo para su tamaño
GLM 5.1 es excelente, pero incluso en Q4 necesita unos 400GB, y Kimi K2.5 también es bueno, pero con cuantización Q4 necesita casi 600GB
Este modelo puede correr en 70GB de VRAM con Q4, así que ya se acerca al terreno de consumo. Estamos hablando de poder comprar un Mac Studio con 128GB de RAM por unos 3500 dólares
No sé si la gente obsesionada con Claude solo usa Opus, pero Sonnet ya era muy capaz en el plan Pro. Este modelo corre en local, supera al Sonnet más reciente, y no te cobra extra ni te bloquea la cuenta arbitrariamente porque haya un
HERMES.mden el repoMistral nunca ha sido competitivo en la frontera, pero quizá ese no sea el papel que deberíamos esperar de Mistral. Si es un modelo de Pareto que te da el 80% de la frontera por el 20% del costo/tamaño, ya suena bastante bien
Puedes ejecutar un modelo así en una Mac de 128GB, pero primero hay que ver si Q4 mantiene suficiente calidad. Cada modelo tiene una sensibilidad a la cuantización distinta, y la velocidad real también importa
En tareas asíncronas o en segundo plano, la velocidad de procesamiento del prompt y de generación de tokens importa menos, pero muchos compradores de Mac Studio se dieron cuenta por las malas de que la capacidad de respuesta no es tan buena como la de modelos alojados en hardware serio en la nube
Para la mayoría que no tiene una necesidad fuerte de procesamiento on-premise, quizá el mejor uso de este modelo sea consumirlo a través de uno de los proveedores hospedados en OpenRouter y pagar por token
Casi todos los modelos de pesos abiertos lanzados este año decían igualar o superar a Sonnet, pero aunque en benchmarks queden claramente por delante, en la práctica todavía no he sentido que sea así
HERMES.md, pero quien tenga curiosidad puede encontrar información aquí https://github.com/anthropics/claude-code/issues/53262Me gusta la expresión Claude Pilled
El benchmark está hecho con F8_E4M3, y eso no lo puedes correr en ninguna Mac
Sonnet tiene 1M tokens de contexto, mientras que este modelo tiene 256k, y en local es muy probable que ni siquiera eso se pueda aprovechar bien
Sonnet es rápido incluso a través de red, pero este modelo será mucho más lento
Da pena que los modelos open source fuera de China parezcan estar al menos una generación atrás
Siempre apoyo a Mistral. La diversidad de modelos y de países importa
Este modelo parece una base sólida para construir encima, y ojalá en 3.6/3.7 lleguen más mejoras. Viendo los benchmarks de computer use, parece que el pipeline de visión todavía tiene margen de mejora, aunque eso es solo una suposición
Al ver que algunos resultados de benchmarks salen distintos, da la impresión de que no copiaron logs frontier sino que realmente entrenaron un modelo independiente. Eso también es muy importante
Que existan arquitecturas de pesos distintas dentro de modelos concretos parece una ventaja en sí misma desde la perspectiva de la arquitectura global del sistema
Que Mistral siga sacando modelos confiables es bueno para el mercado
Si los compradores van a tener poder de negociación en precio y despliegue, hay que salir de una estructura donde solo se elige entre dos compañías
Comparado con otros LLM hospedados que he probado, Mistral parece ser el único que usa encabezados CSP bastante estrictos
Si le pides que te haga un sitio con bibliotecas JavaScript, en Le Chat no puedes ver el preview aunque tenga canvas mode
A veces solo quiero probar algo rápido en la web cuando sale un release nuevo, pero es difícil si no pagas o no usas un agent harness
De verdad dibuja muy mal en SVG https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
Le pedí ayuda para configurar un servidor MCP en Vibe, y explicó con total seguridad que MCP era MineCraft Protocol, luego se puso a buscar binarios de Minecraft en la computadora
Todos los modelos fallan en eso; algunos simplemente fallan de forma más divertida
Estoy usando mistral-medium-2508 para tareas de transformación de texto, y para mi caso da mejores resultados que mistral-large
Quiero probar también el nuevo modelo, pero es mucho más caro y lo presentan como un modelo de coding/agentic, así que no me queda claro si busca reemplazar al medium anterior
mistral-medium-2508 costaba $0.4/$2 por 1M tokens, y mistral-medium-3.5 cuesta $1.5/$7.5
Da resultados casi al nivel de Sonnet por 90% menos. Nunca lo usaría para programar, pero para esta tarea de análisis de texto ha sido muy bueno. Incluso mucho mejor que los modelos chinos más recientes
Por eso esperaba este release, pero cuesta 5 veces más que el Mistral Large actual. Me preocupa que terminen retirando el Large barato al cambiar de release
El problema de este modelo es que DeepSeek v4 Flash corre sorprendentemente bien con cuantización de 2 bits https://github.com/antirez/llama.cpp-deepseek-v4-flash
En un M3 Ultra da 30 t/s de generación y 400 t/s de prefill, y en una MacBook Pro M3 Max de 128GB tampoco va mucho más lento
Usado con opencode/pi funciona como un buen agente de coding y el tool calling es muy estable. Esa velocidad es algo que un modelo denso de 120B jamás podrá alcanzar
Así que no solo tiene que competir con modelos cuantizados a 4 bits de tamaño similar, sino también con DeepSeek v4 Flash, que es un archivo GGUF de 86GB, y desde una perspectiva práctica de inferencia local no lo tendrá fácil para ganar
Incluso hay mejoras de velocidad que todavía no se han subido y se van a hacer push pronto. Puede que el árbol actual sea un poco más lento, pero igual sigue siendo muy usable
Hay algo que no entiendo aunque soy fan de Mistral y estoy en Europa. Mistral abrió la corriente de MoE de pesos abiertos con Mixtral, así que no entiendo por qué ahora lanza un modelo denso bastante grande
De esta forma le costará competir de manera confiable tanto en inferencia local como remota. El modelo está lejos del SOTA y además el costo de servirlo no es barato
Los modelos densos sí tienen un lugar en el rango de decenas de miles de millones de parámetros, como Qwen 3.6 27B, pero si te vas a 5 veces eso, ya no encaja a menos que aplaste en capacidad a otros modelos que exigen la misma VRAM
Eso casi no tiene relación con cómo se comporta en un workflow agéntico. Ya sabemos que en cuantización Q2 muchas veces la calidad se degrada bastante
Si este Flash cuantizado mantiene una calidad y rendimiento adecuados incluso con contextos más largos, entonces podría ser un competidor bastante razonable dentro de su misma clase de pesos frente a modelos como Qwen 3 Coder-Next 80B, conservando además lo que parece ser una capacidad clave de la serie V4
Este release de Mistral vuelve a hacerme sentir la brecha entre los laboratorios frontier y el resto de los jugadores
Antes de los agentes, las diferencias entre modelos no siempre eran tan claras, y cada modelo tenía su propio encanto
Ahora ya no quiero usar nada que esté por debajo de un modelo frontier. La diferencia de capacidad es enorme, y elegir uno inferior tiene un costo real de productividad
Siempre me han gustado labs pequeños como Mistral y especialmente Cohere, pero hace bastante que ninguno de los releases de esas dos empresas me entusiasma
Aun así, uso mistral voxtral realtime todos los días y es excelente
Y hace dos años ni se diga
Pero Claude Code es bastante mejor que Codex, y Codex es claramente mejor que Gemini-cli
En ese contexto, no sorprende que Claude Code sea mucho mejor que los modelos no-frontier en coding agéntico. Incluso es bastante mejor que otros modelos frontier para tareas agénticas especializadas
En la mayoría de las tareas, incluidas tareas de programación complejas, casi no se puede distinguir la diferencia entre modelos frontier y modelos como GPT-4.1
Para notar la diferencia realmente tienes que fijarte en cosas como la ventana de contexto, ciertos aspectos del tool calling o de los pasos de razonamiento
Además, los modelos frontier suelen usar un enfoque de fuerza bruta para sacar resultados, lo que hace que el costo de ejecución sea mucho más alto. No solo el costo que aparece en la factura, sino también el tiempo de espera hasta que salga cualquier resultado
Y ni hablemos de los modelos locales
Parece que Mistral está jugando a largo plazo aquí. Modelos más pequeños, menor costo y un rendimiento en general lo suficientemente bueno
Está bien, pero no es nada especial. Aun así, siempre es buena noticia oír de un modelo que no sea ni de EE. UU. ni de China
Da risa que ahora 128B se considere Medium
Hubo un tiempo en que GPT-2 de 355M parámetros era considerado medium
Quizá al final ese juicio sí era correcto