9 puntos por GN⁺ 2025-12-10 | 1 comentarios | Compartir por WhatsApp
  • Devstral 2 es un modelo de codificación open source de próxima generación con 123B parámetros, que registró un 72.2% de rendimiento en SWE-bench Verified y logró una alta eficiencia frente a modelos competidores
  • Devstral Small 2 tiene 24B parámetros y puede ejecutarse incluso en hardware de consumo, además de distribuirse bajo licencia Apache 2.0
  • Mistral Vibe CLI es un agente de terminal open source basado en Devstral que permite explorar, modificar y ejecutar código con lenguaje natural
  • Devstral 2 ofrece hasta 7 veces más eficiencia de costos que Claude Sonnet y, pese a ser 5 veces más pequeño que DeepSeek V3.2, mantiene un alto rendimiento
  • Se le considera una herramienta clave para acelerar la automatización de código a gran escala y la inteligencia distribuida en el ecosistema open source

Resumen de Devstral 2

  • Devstral 2 es un modelo transformer denso de 123B parámetros con soporte para una ventana de contexto de 256K
    • Alcanzó un 72.2% de rendimiento en SWE-bench Verified, ubicándose entre los modelos de pesos abiertos con mejor desempeño
    • Se publica bajo una licencia MIT modificada, marcando un nuevo estándar para los agentes de código open source
  • Devstral Small 2 registró un 68.0% de rendimiento en SWE-bench Verified, manteniéndose en un nivel similar al de modelos hasta 5 veces más grandes
    • Puede ejecutarse localmente en hardware de consumo, con inferencia rápida y ciclos de retroalimentación personalizados
    • Admite entrada de imágenes y permite ejecutar agentes multimodales
  • Devstral 2 (123B) y Small 2 (24B) son respectivamente 5 y 28 veces más pequeños que DeepSeek V3.2, y 8 y 41 veces más pequeños que Kimi K2
    • Su arquitectura de modelo compacta facilita el despliegue incluso en hardware limitado

Soporte para flujos de trabajo de nivel producción

  • Devstral 2 admite exploración de bases de código y gestión de cambios en múltiples archivos, manteniendo contexto a nivel de arquitectura
    • Incluye seguimiento de dependencias de frameworks, detección de fallos y reintentos automáticos
    • Puede realizar tareas de corrección de errores y modernización de sistemas legacy
  • Ofrece fine-tuning adaptado a lenguajes específicos o a grandes bases de código empresariales
  • En comparaciones de evaluación humana con DeepSeek V3.2 y Claude Sonnet 4.5, logró una ventaja sobre DeepSeek (42.8% de tasa de victorias)
    • Aun así, sigue existiendo una brecha de rendimiento frente a Claude Sonnet 4.5
  • Cline evaluó a Devstral 2 como un “modelo de codificación open source de primer nivel” y afirmó que su tasa de éxito en llamadas a herramientas es similar a la de modelos cerrados
  • Kilo Code anunció un uso de 17B tokens durante las primeras 24 horas tras el lanzamiento

Mistral Vibe CLI

  • Es un asistente de codificación CLI open source basado en Devstral, capaz de explorar, modificar y ejecutar código mediante comandos en lenguaje natural
    • Se publica bajo licencia Apache 2.0
    • Puede usarse en la terminal o en IDEs (con integración mediante Agent Communication Protocol)
  • Funciones principales
    • Contexto con reconocimiento del proyecto: escanea automáticamente la estructura de archivos y el estado de Git
    • Referencias inteligentes: autocompletado con @, ejecución de comandos con ! y cambio de configuración con comandos de barra
    • Orquestación de múltiples archivos: razonamiento a nivel de arquitectura a partir de la comprensión de toda la base de código
    • Soporta historial persistente, autocompletado y personalización de temas
  • Permite personalizar el flujo de trabajo con ejecución de scripts, alternancia de aprobación automática, configuración de modelos locales y control de permisos

Despliegue y uso

  • Devstral 2 se ofrece actualmente mediante API gratuita y más adelante tendrá una tarifa de $0.40/$2.00 por entrada/salida
    • Devstral Small 2 tendrá una tarifa de $0.10/$0.30
  • Puede usarse integrado con herramientas de agentes abiertos como Kilo Code y Cline
  • Es posible usar Vibe CLI directamente mediante la extensión de Zed IDE
  • Devstral 2 requiere GPUs de nivel centro de datos (mínimo 4×H100) y puede probarse en build.nvidia.com
    • Devstral Small 2 puede ejecutarse incluso en un solo GPU o en entornos con CPU
    • Compatibilidad con NVIDIA NIM próximamente
  • Para obtener el mejor rendimiento, se recomienda una configuración de temperatura de 0.2 y seguir las mejores prácticas de Vibe CLI

Comunidad y contratación

  • Mistral anima a compartir proyectos y participar con retroalimentación usando Devstral 2, Small 2 y Vibe CLI
    • Es posible comunicarse a través de X/Twitter, Discord y GitHub
  • Están contratando personal para investigación open source y desarrollo de interfaces, y se puede postular en la página oficial de empleo de Mistral

1 comentarios

 
GN⁺ 2025-12-10
Opinión de Hacker News
  • Instalé el modelo de Mistral con el comando llm install llm-mistral, luego ejecuté llm mistral refresh y generé una imagen SVG con llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle"
    El resultado se puede ver en este enlace. Para ser un modelo de 123B, el resultado es bastante bueno
    Puede que el ID del modelo no sea exacto, así que le pregunté directamente a Mistral

    • Ahora también existe la posibilidad de que prompts como “genera un SVG de un pelícano andando en bicicleta” ya estén incluidos en los datos de entrenamiento. Sirve como benchmark, pero creo que también hacen falta pruebas aleatorias para evitar el benchmaxxing
    • Me dio curiosidad si este modelo también podría recrear el sitio web de Space Jam 1996
    • El SVG es código, pero no es código ejecutable, así que puede ser un poco engañoso para evaluar modelos de programación. Aun así, el resultado es impresionante
    • Me pregunto de dónde sacó la herramienta llm
    • Parece que se saltó la bicicleta y la mejoró a una genial motocicleta
  • Mistral está más o menos un año detrás del SOTA, pero está mejorando en velocidad y competitividad de precio. Todavía no me alcanza para usarlo, pero se está acercando rápido. Como modelos competidores lo veo frente a Haiku 4.5, Gemini 3 Pro Fast y el nuevo modelo liviano de OpenAI (¿GPT 5.1 Codex Max Extra High Fast?)

    • Dicen que el nuevo modelo de OpenAI se llama Garlic, pero seguro no lo van a lanzar con ese nombre, ¿no?
    • Comparado con Deepseek-v3.2, está muy por debajo en capacidades generales y cuesta 5 veces más
  • Ejecuté Devstral 2 desde la CLI para revisar un proyecto personal de 500KB
    Entendió correctamente la funcionalidad del programa, corrigió 2 bugs, mejoró el código y agregó 2 funciones pequeñas.
    Introdujo un bug nuevo, pero lo corrigió en cuanto se lo señalé.
    Los cambios al código fueron mínimos y no hubo reescrituras innecesarias.
    Aún es pronto para sacar conclusiones, pero parece un modelo bastante capaz

    • Me pregunto en qué hardware lo ejecutaron
  • Pienso probar Devstral por mi cuenta. El modelo anterior también estaba bien para programación con agentes en local.
    Pero el nombre “Vibe CLI” se siente demasiado ligero.
    El ‘vibe-coding’ es divertido para experimentar con los límites del modelo, pero no encaja con trabajo profesional donde hace falta control de calidad.
    Últimamente todos están obsesionados con el vibe-coding, pero me pregunto dónde están las herramientas LLM profesionales que complementen la inteligencia humana

    • El nuevo agente CLI mistral-vibe está escrito en Python y soporta el protocolo ACP de Zed
    • Como muchas apps se crean como servicios temporales con fines comerciales de corto plazo, el agentic coding es suficientemente útil para esos “servicios de cartón”. Pero no sirve para infraestructura de datos industrial
    • Brokk que estamos construyendo es justamente una herramienta profesional de ese tipo. La presentación está en esta entrada de blog
    • También hubo quien respondió: “Entonces, ¿quieres decir que Claude Code no es suficiente?”
    • También existe la opinión de que ahora la calidad de las especificaciones y las pruebas importa más que la calidad del código
  • Estoy pensando en una configuración de hardware de $5,000 para correr Devstral Small 2.
    Tengo curiosidad por la velocidad de procesamiento de tokens en Mac 32GB, RTX 4090, DGX Spark, RTX 5090, GPU externa (Oculink), etc.

    • $5,000 es un presupuesto ambiguo, así que recomiendo alquilar GPUs en la nube.
      Si quieres alto rendimiento, RTX 5090; para compatibilidad con CUDA, DGX Spark; para modelos grandes, Strix Halo 128GB o M3 Ultra.
      Para benchmarks reales, lo mejor es buscar en r/LocalLLaMA
    • Una configuración con dual 3090 (24GB×2) es actualmente la mejor en relación precio-rendimiento.
      Si quieres ir más allá, también hay servidores con 8×V100 (32GB×8, 512GB RAM, NVLink). Eso sí, requieren alimentación de 240V
    • Yo uso una combinación de 7900XTX + 128GB DDR4. Y odio NVIDIA
  • El nombre “Vibe CLI” suena como una herramienta demasiado ligera.
    Yo uso Claude Code con frecuencia, pero no llamaría a eso vibe-coding

    • Este tipo de nombre probablemente sea un meme de marketing. Da la impresión de que quieren llamar la atención con artículos del estilo “¡una empresa francesa lanzó una herramienta para ‘programar por vibes’!”
    • Creo que programar con LLMs es, por naturaleza, más adecuado para trabajos ligeros
    • Si le encargas código a Claude, eso ya es vibe-coding
    • Probablemente solo sea un nombre humorístico
  • Me alegra que sea una CLI que no usa React.
    Vibe-cli está hecha con el framework Textual

    • Aun así, me preocupa que, al estar basada en Python, la velocidad de salida sea lenta. Ya tuve un problema parecido antes con Aider
  • Si Mistral es 10 veces más barato por token que Claude, resulta bastante atractivo.
    Mientras el rendimiento no sea 10 veces peor, es un buen punto

    • GPT 5-mini también es mucho más barato que Haiku, pero al usarlo de verdad fue un desperdicio de tiempo.
      En la empresa usamos Haiku, Sonnet y Opus, pero para presupuesto personal uso minimax m2
    • Si es 10 veces más barato pero 2 veces más lento, al final podría salir más caro por el desperdicio de tokens
    • Como incluso los modelos SOTA actuales todavía no son perfectos programando, no veo razón para enfocarse demasiado en optimizar el precio
  • Hice un paquete AUR para Mistral-vibe
    Enlace del paquete

  • Si usas Nix, puedes ejecutarlo directamente con este comando

    nix run github:numtide/llm-agents.nix#mistral-vibe
    

    El repositorio se actualiza todos los días

    • Me parece un proyecto realmente genial. Gracias por compartirlo