Mistral Medium 3.5

(mistral.ai)

1 puntos por GN⁺ 6 시간 전 | 1 comentarios | Compartir por WhatsApp

El modelo denso de 128B maneja instruction-following, razonamiento y coding con un solo conjunto de pesos, y está disponible como public preview
Soporta una ventana de contexto de 256k y la configuración de reasoning effort por solicitud, lo que permite usar el mismo modelo tanto para respuestas cortas en chat como para ejecuciones agentic complejas
Las sesiones de Vibe coding ahora se ejecutan de forma asíncrona en la nube y pueden correr varias sesiones en paralelo; además, una sesión local del CLI puede teleportarse a la nube junto con su history, task state y approval
El Work mode de Le Chat es un agentic mode basado en Mistral Medium 3.5 que aprovecha el contexto de connected tools, documents, mailboxes y calendars, y solicita aprobación explícita para tareas sensibles
El modelo se convierte en el modelo predeterminado de Le Chat y reemplaza a Devstral 2 en Vibe CLI; el precio de la API es de $1.5 por cada 1 millón de input tokens y $7.5 por cada 1 millón de output tokens

Lanzamiento de Mistral Medium 3.5

El encoder de visión fue entrenado desde cero para manejar distintos tamaños de imagen y aspect ratio
Obtuvo 77.6% en SWE-Bench Verified, superando a modelos como Devstral 2 y Qwen3.5 397B A17B
En τ³-Telecom registró 91.4 y se enfoca en múltiples llamadas a herramientas y en generar structured output que pueda ser consumido por downstream code

Agente remoto de coding de Vibe

Las sesiones de coding ahora se ejecutan de forma asíncrona en la nube, por lo que pueden seguir trabajando en tareas largas mientras el usuario está ausente
Se pueden ejecutar varias sesiones en paralelo, evitando que el desarrollador se convierta en un cuello de botella en cada paso que realiza el agente
El agente en la nube puede iniciarse desde Mistral Vibe CLI o desde Le Chat
Durante la ejecución se pueden ver el file diff, las tool calls, el progress state y las preguntas del agente
Una sesión local del CLI puede teleportarse a la nube, llevando consigo el session history, task state y approval

Estructura integrada con el flujo de trabajo de desarrollo

Vibe se ubica entre los sistemas que los equipos de desarrollo ya usan y mantiene human-in-the-loop en los puntos necesarios
En GitHub se conecta con el código y los pull requests, y en Linear y Jira con los issues
Sentry se conecta para el manejo de incidentes, y apps como Slack y Teams para reporting
Cada sesión de coding se ejecuta en un sandbox aislado y puede incluir ediciones extensas e instalaciones
Al terminar el trabajo, el agente puede abrir un pull request en GitHub y enviar notificaciones, para que el desarrollador revise los resultados en lugar de cada keystroke

Tareas de coding adecuadas y ejecución en Le Chat

El agente remoto de Vibe está orientado a trabajo bien definido que requiere criterio del desarrollador, pero consume mucho tiempo
Entre las tareas objetivo están module refactor, test generation, dependency upgrade, CI investigation y bug fix
Al orquestar Workflows desde Mistral Studio, Mistral Vibe puede usarse dentro de Le Chat
Esta función se creó primero para el entorno interno de coding y después se usó para enterprise customers
Ahora es posible iniciar tareas de coding desde la web y ejecutar varias en paralelo sin quedar atado al terminal local
Las tareas creadas en Le Chat se ejecutan en el mismo remote runtime que usan el CLI y la web, y luego regresan como una finished branch o un draft PR

Work mode de Le Chat

El Work mode es un agentic mode de Le Chat para manejar tareas complejas, impulsado por un nuevo harness y por Mistral Medium 3.5
El agente se convierte en el execution backend del propio assistant, permitiendo que Le Chat lea y escriba, use varias herramientas a la vez y gestione proyectos de varios pasos
Flujos de trabajo entre herramientas
- Puede ponerse al día con email, messages y calendar en una sola ejecución
- Puede preparar reuniones con el contexto de los asistentes, noticias recientes y talking points obtenidos de las fuentes
Investigación y síntesis
- Puede investigar un tema en la web, en documentos internos y en connected tools
- Puede crear briefs o reports estructurados que luego se pueden editar, exportar o enviar
Bandeja de entrada y trabajo en equipo
- Puede hacer inbox triage y redactar borradores de respuesta
- Puede crear issues en Jira a partir de discusiones con el equipo y clientes, y enviar un summary al equipo por Slack
- Las sesiones duran más que una respuesta normal de chat y pueden continuar a lo largo de varios turnos y pruebas hasta completarse
- En Work mode, los connectors están activados por defecto en lugar de seleccionarse manualmente, por lo que se accede al contexto de documents, mailboxes, calendars y otros sistemas
- Todas las acciones del agente son visibles y se puede revisar cada tool call y su thinking rationale
- Para tareas sensibles como enviar mensajes, redactar documentos o modificar datos, Le Chat solicita aprobación explícita según los permisos

Disponibilidad y precios

Mistral Medium 3.5 está disponible en Mistral Vibe y Le Chat
Los remote coding agents y el Work mode de Le Chat funcionan con Mistral Medium 3.5 en los planes Pro, Team y Enterprise
El precio de la API es de $1.5 por cada 1 millón de input tokens y $7.5 por cada 1 millón de output tokens
Los open weights están disponibles en Hugging Face bajo una modified MIT license
También está alojado para prototipado en el endpoint con aceleración NVIDIA GPU de build.nvidia.com
También está disponible como NVIDIA NIM, un microservicio de inferencia containerizado y escalable

1 comentarios

GN⁺ 6 시간 전

Comentarios de Hacker News

No sé qué están viendo todos en los comentarios. Este modelo no supera a otros modelos, pero sí es competitivo para su tamaño
GLM 5.1 es excelente, pero incluso en Q4 necesita unos 400GB, y Kimi K2.5 también es bueno, pero con cuantización Q4 necesita casi 600GB
Este modelo puede correr en 70GB de VRAM con Q4, así que ya se acerca al terreno de consumo. Estamos hablando de poder comprar un Mac Studio con 128GB de RAM por unos 3500 dólares
No sé si la gente obsesionada con Claude solo usa Opus, pero Sonnet ya era muy capaz en el plan Pro. Este modelo corre en local, supera al Sonnet más reciente, y no te cobra extra ni te bloquea la cuenta arbitrariamente porque haya un HERMES.md en el repo
Mistral nunca ha sido competitivo en la frontera, pero quizá ese no sea el papel que deberíamos esperar de Mistral. Si es un modelo de Pareto que te da el 80% de la frontera por el 20% del costo/tamaño, ya suena bastante bien
- Si te interesan los LLM locales, deberías saber que poder “correr” un modelo y poder “correrlo rápido” son criterios completamente distintos
  Puedes ejecutar un modelo así en una Mac de 128GB, pero primero hay que ver si Q4 mantiene suficiente calidad. Cada modelo tiene una sensibilidad a la cuantización distinta, y la velocidad real también importa
  En tareas asíncronas o en segundo plano, la velocidad de procesamiento del prompt y de generación de tokens importa menos, pero muchos compradores de Mac Studio se dieron cuenta por las malas de que la capacidad de respuesta no es tan buena como la de modelos alojados en hardware serio en la nube
  Para la mayoría que no tiene una necesidad fuerte de procesamiento on-premise, quizá el mejor uso de este modelo sea consumirlo a través de uno de los proveedores hospedados en OpenRouter y pagar por token
  Casi todos los modelos de pesos abiertos lanzados este año decían igualar o superar a Sonnet, pero aunque en benchmarks queden claramente por delante, en la práctica todavía no he sentido que sea así
- No conocía HERMES.md, pero quien tenga curiosidad puede encontrar información aquí https://github.com/anthropics/claude-code/issues/53262
- Antes de febrero podía usar Opus High en el plan Max sin problema, pero ahora solo uso Sonnet High y es bastante capaz
  Me gusta la expresión Claude Pilled
- Decir que “corre en local y supera al Sonnet más reciente” en realidad no es cierto
  El benchmark está hecho con F8_E4M3, y eso no lo puedes correr en ninguna Mac
  Sonnet tiene 1M tokens de contexto, mientras que este modelo tiene 256k, y en local es muy probable que ni siquiera eso se pueda aprovechar bien
  Sonnet es rápido incluso a través de red, pero este modelo será mucho más lento
- Tampoco hay que olvidar Qwen 35B A3B MoE. Rinde mejor que este modelo en todas las métricas y con un costo de memoria/cómputo mucho menor
  Da pena que los modelos open source fuera de China parezcan estar al menos una generación atrás
Siempre apoyo a Mistral. La diversidad de modelos y de países importa
Este modelo parece una base sólida para construir encima, y ojalá en 3.6/3.7 lleguen más mejoras. Viendo los benchmarks de computer use, parece que el pipeline de visión todavía tiene margen de mejora, aunque eso es solo una suposición
Al ver que algunos resultados de benchmarks salen distintos, da la impresión de que no copiaron logs frontier sino que realmente entrenaron un modelo independiente. Eso también es muy importante
Que existan arquitecturas de pesos distintas dentro de modelos concretos parece una ventaja en sí misma desde la perspectiva de la arquitectura global del sistema
Que Mistral siga sacando modelos confiables es bueno para el mercado
Si los compradores van a tener poder de negociación en precio y despliegue, hay que salir de una estructura donde solo se elige entre dos compañías
Comparado con otros LLM hospedados que he probado, Mistral parece ser el único que usa encabezados CSP bastante estrictos
Si le pides que te haga un sitio con bibliotecas JavaScript, en Le Chat no puedes ver el preview aunque tenga canvas mode
A veces solo quiero probar algo rápido en la web cuando sale un release nuevo, pero es difícil si no pagas o no usas un agent harness
De verdad dibuja muy mal en SVG https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
- Puede que SVG no sea el mejor benchmark, pero encaja con mi experiencia usando modelos viejos de Mistral en Mistral Vibe
  Le pedí ayuda para configurar un servidor MCP en Vibe, y explicó con total seguridad que MCP era MineCraft Protocol, luego se puso a buscar binarios de Minecraft en la computadora
- Nunca he querido, necesitado ni esperado que un LLM dibuje SVG
  Todos los modelos fallan en eso; algunos simplemente fallan de forma más divertida
Estoy usando mistral-medium-2508 para tareas de transformación de texto, y para mi caso da mejores resultados que mistral-large
Quiero probar también el nuevo modelo, pero es mucho más caro y lo presentan como un modelo de coding/agentic, así que no me queda claro si busca reemplazar al medium anterior
mistral-medium-2508 costaba $0.4/$2 por 1M tokens, y mistral-medium-3.5 cuesta $1.5/$7.5
- En producción estoy usando Mistral Large para procesar grandes bloques de texto
  Da resultados casi al nivel de Sonnet por 90% menos. Nunca lo usaría para programar, pero para esta tarea de análisis de texto ha sido muy bueno. Incluso mucho mejor que los modelos chinos más recientes
  Por eso esperaba este release, pero cuesta 5 veces más que el Mistral Large actual. Me preocupa que terminen retirando el Large barato al cambiar de release
El problema de este modelo es que DeepSeek v4 Flash corre sorprendentemente bien con cuantización de 2 bits https://github.com/antirez/llama.cpp-deepseek-v4-flash
En un M3 Ultra da 30 t/s de generación y 400 t/s de prefill, y en una MacBook Pro M3 Max de 128GB tampoco va mucho más lento
Usado con opencode/pi funciona como un buen agente de coding y el tool calling es muy estable. Esa velocidad es algo que un modelo denso de 120B jamás podrá alcanzar
Así que no solo tiene que competir con modelos cuantizados a 4 bits de tamaño similar, sino también con DeepSeek v4 Flash, que es un archivo GGUF de 86GB, y desde una perspectiva práctica de inferencia local no lo tendrá fácil para ganar
Incluso hay mejoras de velocidad que todavía no se han subido y se van a hacer push pronto. Puede que el árbol actual sea un poco más lento, pero igual sigue siendo muy usable
Hay algo que no entiendo aunque soy fan de Mistral y estoy en Europa. Mistral abrió la corriente de MoE de pesos abiertos con Mixtral, así que no entiendo por qué ahora lanza un modelo denso bastante grande
De esta forma le costará competir de manera confiable tanto en inferencia local como remota. El modelo está lejos del SOTA y además el costo de servirlo no es barato
Los modelos densos sí tienen un lugar en el rango de decenas de miles de millones de parámetros, como Qwen 3.6 27B, pero si te vas a 5 veces eso, ya no encaja a menos que aplaste en capacidad a otros modelos que exigen la misma VRAM
- En el enlace de GitHub solo dice que “los modelos cuantizados de esta forma funcionan muy bien en chat y tienen vibes de frontier model, pero no han sido probados ampliamente”
  Eso casi no tiene relación con cómo se comporta en un workflow agéntico. Ya sabemos que en cuantización Q2 muchas veces la calidad se degrada bastante
  Si este Flash cuantizado mantiene una calidad y rendimiento adecuados incluso con contextos más largos, entonces podría ser un competidor bastante razonable dentro de su misma clase de pesos frente a modelos como Qwen 3 Coder-Next 80B, conservando además lo que parece ser una capacidad clave de la serie V4
Este release de Mistral vuelve a hacerme sentir la brecha entre los laboratorios frontier y el resto de los jugadores
Antes de los agentes, las diferencias entre modelos no siempre eran tan claras, y cada modelo tenía su propio encanto
Ahora ya no quiero usar nada que esté por debajo de un modelo frontier. La diferencia de capacidad es enorme, y elegir uno inferior tiene un costo real de productividad
Siempre me han gustado labs pequeños como Mistral y especialmente Cohere, pero hace bastante que ninguno de los releases de esas dos empresas me entusiasma
Aun así, uso mistral voxtral realtime todos los días y es excelente
- No podría estar más en desacuerdo. Hace apenas un año la brecha de productividad entre modelos frontier y no-frontier era mucho mayor
  Y hace dos años ni se diga
- En tareas no agénticas, no hay un ganador claro en términos generales entre Gemini, ChatGPT y Claude. Si hablamos solo de la interfaz simple de chatbot, son apples to oranges
  Pero Claude Code es bastante mejor que Codex, y Codex es claramente mejor que Gemini-cli
  En ese contexto, no sorprende que Claude Code sea mucho mejor que los modelos no-frontier en coding agéntico. Incluso es bastante mejor que otros modelos frontier para tareas agénticas especializadas
- Decir que no quieres usar nada que esté por debajo de un modelo frontier es bastante ingenuo y un juicio equivocado
  En la mayoría de las tareas, incluidas tareas de programación complejas, casi no se puede distinguir la diferencia entre modelos frontier y modelos como GPT-4.1
  Para notar la diferencia realmente tienes que fijarte en cosas como la ventana de contexto, ciertos aspectos del tool calling o de los pasos de razonamiento
  Además, los modelos frontier suelen usar un enfoque de fuerza bruta para sacar resultados, lo que hace que el costo de ejecución sea mucho más alto. No solo el costo que aparece en la factura, sino también el tiempo de espera hasta que salga cualquier resultado
  Y ni hablemos de los modelos locales
Parece que Mistral está jugando a largo plazo aquí. Modelos más pequeños, menor costo y un rendimiento en general lo suficientemente bueno
Está bien, pero no es nada especial. Aun así, siempre es buena noticia oír de un modelo que no sea ni de EE. UU. ni de China
- Supongo que ese es el estándar europeo
Da risa que ahora 128B se considere Medium
Hubo un tiempo en que GPT-2 de 355M parámetros era considerado medium
- GPT-2 de 1.5B se consideraba demasiado peligroso para publicar
  Quizá al final ese juicio sí era correcto

Mistral Medium 3.5

Lanzamiento de Mistral Medium 3.5

Agente remoto de coding de Vibe

Estructura integrada con el flujo de trabajo de desarrollo

Tareas de coding adecuadas y ejecución en Le Chat

Work mode de Le Chat

Flujos de trabajo entre herramientas

Investigación y síntesis

Bandeja de entrada y trabajo en equipo

Disponibilidad y precios

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News