1 puntos por GN⁺ 6 시간 전 | 1 comentarios | Compartir por WhatsApp
  • El modelo denso de 128B maneja instruction-following, razonamiento y coding con un solo conjunto de pesos, y está disponible como public preview
  • Soporta una ventana de contexto de 256k y la configuración de reasoning effort por solicitud, lo que permite usar el mismo modelo tanto para respuestas cortas en chat como para ejecuciones agentic complejas
  • Las sesiones de Vibe coding ahora se ejecutan de forma asíncrona en la nube y pueden correr varias sesiones en paralelo; además, una sesión local del CLI puede teleportarse a la nube junto con su history, task state y approval
  • El Work mode de Le Chat es un agentic mode basado en Mistral Medium 3.5 que aprovecha el contexto de connected tools, documents, mailboxes y calendars, y solicita aprobación explícita para tareas sensibles
  • El modelo se convierte en el modelo predeterminado de Le Chat y reemplaza a Devstral 2 en Vibe CLI; el precio de la API es de $1.5 por cada 1 millón de input tokens y $7.5 por cada 1 millón de output tokens

Lanzamiento de Mistral Medium 3.5

  • El encoder de visión fue entrenado desde cero para manejar distintos tamaños de imagen y aspect ratio
  • Obtuvo 77.6% en SWE-Bench Verified, superando a modelos como Devstral 2 y Qwen3.5 397B A17B
  • En τ³-Telecom registró 91.4 y se enfoca en múltiples llamadas a herramientas y en generar structured output que pueda ser consumido por downstream code

Agente remoto de coding de Vibe

  • Las sesiones de coding ahora se ejecutan de forma asíncrona en la nube, por lo que pueden seguir trabajando en tareas largas mientras el usuario está ausente
  • Se pueden ejecutar varias sesiones en paralelo, evitando que el desarrollador se convierta en un cuello de botella en cada paso que realiza el agente
  • El agente en la nube puede iniciarse desde Mistral Vibe CLI o desde Le Chat
  • Durante la ejecución se pueden ver el file diff, las tool calls, el progress state y las preguntas del agente
  • Una sesión local del CLI puede teleportarse a la nube, llevando consigo el session history, task state y approval

Estructura integrada con el flujo de trabajo de desarrollo

  • Vibe se ubica entre los sistemas que los equipos de desarrollo ya usan y mantiene human-in-the-loop en los puntos necesarios
  • En GitHub se conecta con el código y los pull requests, y en Linear y Jira con los issues
  • Sentry se conecta para el manejo de incidentes, y apps como Slack y Teams para reporting
  • Cada sesión de coding se ejecuta en un sandbox aislado y puede incluir ediciones extensas e instalaciones
  • Al terminar el trabajo, el agente puede abrir un pull request en GitHub y enviar notificaciones, para que el desarrollador revise los resultados en lugar de cada keystroke

Tareas de coding adecuadas y ejecución en Le Chat

  • El agente remoto de Vibe está orientado a trabajo bien definido que requiere criterio del desarrollador, pero consume mucho tiempo
  • Entre las tareas objetivo están module refactor, test generation, dependency upgrade, CI investigation y bug fix
  • Al orquestar Workflows desde Mistral Studio, Mistral Vibe puede usarse dentro de Le Chat
  • Esta función se creó primero para el entorno interno de coding y después se usó para enterprise customers
  • Ahora es posible iniciar tareas de coding desde la web y ejecutar varias en paralelo sin quedar atado al terminal local
  • Las tareas creadas en Le Chat se ejecutan en el mismo remote runtime que usan el CLI y la web, y luego regresan como una finished branch o un draft PR

Work mode de Le Chat

  • El Work mode es un agentic mode de Le Chat para manejar tareas complejas, impulsado por un nuevo harness y por Mistral Medium 3.5
  • El agente se convierte en el execution backend del propio assistant, permitiendo que Le Chat lea y escriba, use varias herramientas a la vez y gestione proyectos de varios pasos
  • Flujos de trabajo entre herramientas

    • Puede ponerse al día con email, messages y calendar en una sola ejecución
    • Puede preparar reuniones con el contexto de los asistentes, noticias recientes y talking points obtenidos de las fuentes
  • Investigación y síntesis

    • Puede investigar un tema en la web, en documentos internos y en connected tools
    • Puede crear briefs o reports estructurados que luego se pueden editar, exportar o enviar
  • Bandeja de entrada y trabajo en equipo

    • Puede hacer inbox triage y redactar borradores de respuesta
    • Puede crear issues en Jira a partir de discusiones con el equipo y clientes, y enviar un summary al equipo por Slack
    • Las sesiones duran más que una respuesta normal de chat y pueden continuar a lo largo de varios turnos y pruebas hasta completarse
    • En Work mode, los connectors están activados por defecto en lugar de seleccionarse manualmente, por lo que se accede al contexto de documents, mailboxes, calendars y otros sistemas
    • Todas las acciones del agente son visibles y se puede revisar cada tool call y su thinking rationale
    • Para tareas sensibles como enviar mensajes, redactar documentos o modificar datos, Le Chat solicita aprobación explícita según los permisos

Disponibilidad y precios

  • Mistral Medium 3.5 está disponible en Mistral Vibe y Le Chat
  • Los remote coding agents y el Work mode de Le Chat funcionan con Mistral Medium 3.5 en los planes Pro, Team y Enterprise
  • El precio de la API es de $1.5 por cada 1 millón de input tokens y $7.5 por cada 1 millón de output tokens
  • Los open weights están disponibles en Hugging Face bajo una modified MIT license
  • También está alojado para prototipado en el endpoint con aceleración NVIDIA GPU de build.nvidia.com
  • También está disponible como NVIDIA NIM, un microservicio de inferencia containerizado y escalable

1 comentarios

 
GN⁺ 6 시간 전
Comentarios de Hacker News
  • No sé qué están viendo todos en los comentarios. Este modelo no supera a otros modelos, pero sí es competitivo para su tamaño
    GLM 5.1 es excelente, pero incluso en Q4 necesita unos 400GB, y Kimi K2.5 también es bueno, pero con cuantización Q4 necesita casi 600GB
    Este modelo puede correr en 70GB de VRAM con Q4, así que ya se acerca al terreno de consumo. Estamos hablando de poder comprar un Mac Studio con 128GB de RAM por unos 3500 dólares
    No sé si la gente obsesionada con Claude solo usa Opus, pero Sonnet ya era muy capaz en el plan Pro. Este modelo corre en local, supera al Sonnet más reciente, y no te cobra extra ni te bloquea la cuenta arbitrariamente porque haya un HERMES.md en el repo
    Mistral nunca ha sido competitivo en la frontera, pero quizá ese no sea el papel que deberíamos esperar de Mistral. Si es un modelo de Pareto que te da el 80% de la frontera por el 20% del costo/tamaño, ya suena bastante bien

    • Si te interesan los LLM locales, deberías saber que poder “correr” un modelo y poder “correrlo rápido” son criterios completamente distintos
      Puedes ejecutar un modelo así en una Mac de 128GB, pero primero hay que ver si Q4 mantiene suficiente calidad. Cada modelo tiene una sensibilidad a la cuantización distinta, y la velocidad real también importa
      En tareas asíncronas o en segundo plano, la velocidad de procesamiento del prompt y de generación de tokens importa menos, pero muchos compradores de Mac Studio se dieron cuenta por las malas de que la capacidad de respuesta no es tan buena como la de modelos alojados en hardware serio en la nube
      Para la mayoría que no tiene una necesidad fuerte de procesamiento on-premise, quizá el mejor uso de este modelo sea consumirlo a través de uno de los proveedores hospedados en OpenRouter y pagar por token
      Casi todos los modelos de pesos abiertos lanzados este año decían igualar o superar a Sonnet, pero aunque en benchmarks queden claramente por delante, en la práctica todavía no he sentido que sea así
    • No conocía HERMES.md, pero quien tenga curiosidad puede encontrar información aquí https://github.com/anthropics/claude-code/issues/53262
    • Antes de febrero podía usar Opus High en el plan Max sin problema, pero ahora solo uso Sonnet High y es bastante capaz
      Me gusta la expresión Claude Pilled
    • Decir que “corre en local y supera al Sonnet más reciente” en realidad no es cierto
      El benchmark está hecho con F8_E4M3, y eso no lo puedes correr en ninguna Mac
      Sonnet tiene 1M tokens de contexto, mientras que este modelo tiene 256k, y en local es muy probable que ni siquiera eso se pueda aprovechar bien
      Sonnet es rápido incluso a través de red, pero este modelo será mucho más lento
    • Tampoco hay que olvidar Qwen 35B A3B MoE. Rinde mejor que este modelo en todas las métricas y con un costo de memoria/cómputo mucho menor
      Da pena que los modelos open source fuera de China parezcan estar al menos una generación atrás
  • Siempre apoyo a Mistral. La diversidad de modelos y de países importa
    Este modelo parece una base sólida para construir encima, y ojalá en 3.6/3.7 lleguen más mejoras. Viendo los benchmarks de computer use, parece que el pipeline de visión todavía tiene margen de mejora, aunque eso es solo una suposición
    Al ver que algunos resultados de benchmarks salen distintos, da la impresión de que no copiaron logs frontier sino que realmente entrenaron un modelo independiente. Eso también es muy importante
    Que existan arquitecturas de pesos distintas dentro de modelos concretos parece una ventaja en sí misma desde la perspectiva de la arquitectura global del sistema

  • Que Mistral siga sacando modelos confiables es bueno para el mercado
    Si los compradores van a tener poder de negociación en precio y despliegue, hay que salir de una estructura donde solo se elige entre dos compañías

  • Comparado con otros LLM hospedados que he probado, Mistral parece ser el único que usa encabezados CSP bastante estrictos
    Si le pides que te haga un sitio con bibliotecas JavaScript, en Le Chat no puedes ver el preview aunque tenga canvas mode
    A veces solo quiero probar algo rápido en la web cuando sale un release nuevo, pero es difícil si no pagas o no usas un agent harness
    De verdad dibuja muy mal en SVG https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...

    • Puede que SVG no sea el mejor benchmark, pero encaja con mi experiencia usando modelos viejos de Mistral en Mistral Vibe
      Le pedí ayuda para configurar un servidor MCP en Vibe, y explicó con total seguridad que MCP era MineCraft Protocol, luego se puso a buscar binarios de Minecraft en la computadora
    • Nunca he querido, necesitado ni esperado que un LLM dibuje SVG
      Todos los modelos fallan en eso; algunos simplemente fallan de forma más divertida
  • Estoy usando mistral-medium-2508 para tareas de transformación de texto, y para mi caso da mejores resultados que mistral-large
    Quiero probar también el nuevo modelo, pero es mucho más caro y lo presentan como un modelo de coding/agentic, así que no me queda claro si busca reemplazar al medium anterior
    mistral-medium-2508 costaba $0.4/$2 por 1M tokens, y mistral-medium-3.5 cuesta $1.5/$7.5

    • En producción estoy usando Mistral Large para procesar grandes bloques de texto
      Da resultados casi al nivel de Sonnet por 90% menos. Nunca lo usaría para programar, pero para esta tarea de análisis de texto ha sido muy bueno. Incluso mucho mejor que los modelos chinos más recientes
      Por eso esperaba este release, pero cuesta 5 veces más que el Mistral Large actual. Me preocupa que terminen retirando el Large barato al cambiar de release
  • El problema de este modelo es que DeepSeek v4 Flash corre sorprendentemente bien con cuantización de 2 bits https://github.com/antirez/llama.cpp-deepseek-v4-flash
    En un M3 Ultra da 30 t/s de generación y 400 t/s de prefill, y en una MacBook Pro M3 Max de 128GB tampoco va mucho más lento
    Usado con opencode/pi funciona como un buen agente de coding y el tool calling es muy estable. Esa velocidad es algo que un modelo denso de 120B jamás podrá alcanzar
    Así que no solo tiene que competir con modelos cuantizados a 4 bits de tamaño similar, sino también con DeepSeek v4 Flash, que es un archivo GGUF de 86GB, y desde una perspectiva práctica de inferencia local no lo tendrá fácil para ganar
    Incluso hay mejoras de velocidad que todavía no se han subido y se van a hacer push pronto. Puede que el árbol actual sea un poco más lento, pero igual sigue siendo muy usable
    Hay algo que no entiendo aunque soy fan de Mistral y estoy en Europa. Mistral abrió la corriente de MoE de pesos abiertos con Mixtral, así que no entiendo por qué ahora lanza un modelo denso bastante grande
    De esta forma le costará competir de manera confiable tanto en inferencia local como remota. El modelo está lejos del SOTA y además el costo de servirlo no es barato
    Los modelos densos sí tienen un lugar en el rango de decenas de miles de millones de parámetros, como Qwen 3.6 27B, pero si te vas a 5 veces eso, ya no encaja a menos que aplaste en capacidad a otros modelos que exigen la misma VRAM

    • En el enlace de GitHub solo dice que “los modelos cuantizados de esta forma funcionan muy bien en chat y tienen vibes de frontier model, pero no han sido probados ampliamente”
      Eso casi no tiene relación con cómo se comporta en un workflow agéntico. Ya sabemos que en cuantización Q2 muchas veces la calidad se degrada bastante
      Si este Flash cuantizado mantiene una calidad y rendimiento adecuados incluso con contextos más largos, entonces podría ser un competidor bastante razonable dentro de su misma clase de pesos frente a modelos como Qwen 3 Coder-Next 80B, conservando además lo que parece ser una capacidad clave de la serie V4
  • Este release de Mistral vuelve a hacerme sentir la brecha entre los laboratorios frontier y el resto de los jugadores
    Antes de los agentes, las diferencias entre modelos no siempre eran tan claras, y cada modelo tenía su propio encanto
    Ahora ya no quiero usar nada que esté por debajo de un modelo frontier. La diferencia de capacidad es enorme, y elegir uno inferior tiene un costo real de productividad
    Siempre me han gustado labs pequeños como Mistral y especialmente Cohere, pero hace bastante que ninguno de los releases de esas dos empresas me entusiasma
    Aun así, uso mistral voxtral realtime todos los días y es excelente

    • No podría estar más en desacuerdo. Hace apenas un año la brecha de productividad entre modelos frontier y no-frontier era mucho mayor
      Y hace dos años ni se diga
    • En tareas no agénticas, no hay un ganador claro en términos generales entre Gemini, ChatGPT y Claude. Si hablamos solo de la interfaz simple de chatbot, son apples to oranges
      Pero Claude Code es bastante mejor que Codex, y Codex es claramente mejor que Gemini-cli
      En ese contexto, no sorprende que Claude Code sea mucho mejor que los modelos no-frontier en coding agéntico. Incluso es bastante mejor que otros modelos frontier para tareas agénticas especializadas
    • Decir que no quieres usar nada que esté por debajo de un modelo frontier es bastante ingenuo y un juicio equivocado
      En la mayoría de las tareas, incluidas tareas de programación complejas, casi no se puede distinguir la diferencia entre modelos frontier y modelos como GPT-4.1
      Para notar la diferencia realmente tienes que fijarte en cosas como la ventana de contexto, ciertos aspectos del tool calling o de los pasos de razonamiento
      Además, los modelos frontier suelen usar un enfoque de fuerza bruta para sacar resultados, lo que hace que el costo de ejecución sea mucho más alto. No solo el costo que aparece en la factura, sino también el tiempo de espera hasta que salga cualquier resultado
      Y ni hablemos de los modelos locales
  • Parece que Mistral está jugando a largo plazo aquí. Modelos más pequeños, menor costo y un rendimiento en general lo suficientemente bueno

  • Está bien, pero no es nada especial. Aun así, siempre es buena noticia oír de un modelo que no sea ni de EE. UU. ni de China

    • Supongo que ese es el estándar europeo
  • Da risa que ahora 128B se considere Medium
    Hubo un tiempo en que GPT-2 de 355M parámetros era considerado medium

    • GPT-2 de 1.5B se consideraba demasiado peligroso para publicar
      Quizá al final ese juicio sí era correcto