4 puntos por GN⁺ 2025-05-22 | 1 comentarios | Compartir por WhatsApp
  • Devstral es un LLM agéntico para tareas de ingeniería de software, desarrollado en colaboración entre Mistral AI y All Hands AI
  • En el benchmark SWE-Bench Verified logró un rendimiento de 46.8%, más de 6% superior al de los modelos open source existentes
  • Muestra mejor rendimiento que modelos competidores (Deepseek-V3, Qwen3, etc.) y algunos modelos de código cerrado (como GPT-4.1-mini)
  • Puede usarse localmente incluso en una RTX 4090 o una Mac con 32GB de RAM, por lo que es adecuado para entornos empresariales o copilotos
  • Se distribuye gratuitamente bajo licencia Apache 2.0 y puede usarse y personalizarse de inmediato en diversas plataformas

Introducción a Devstral

  • Devstral es un LLM agéntico (Agentic Large Language Model) para tareas de ingeniería de software como escribir código, modificarlo y resolver issues
  • Fue desarrollado mediante una alianza entre Mistral AI y All Hands AI
  • Devstral fue entrenado para resolver issues reales de GitHub y funciona sobre scaffolds de agentes de código como OpenHands o SWE-Agent

Rendimiento de Devstral en el benchmark SWE-Bench Verified

  • Devstral registró una puntuación de 46.8% en SWE-Bench Verified, superando al mejor modelo open source por más de 6 puntos porcentuales
  • Bajo el mismo scaffold de prueba (OpenHands), también mostró resultados superiores a modelos más grandes como Deepseek-V3-0324(671B) y Qwen3 232B-A22B
  • Incluso en entornos de prueba personalizados, Devstral obtuvo mejor rendimiento que varios modelos alternativos de código cerrado
    • Por ejemplo, mostró una precisión más de 20% superior a la del más reciente GPT-4.1-mini

Versatilidad y aplicabilidad

  • Devstral puede ejecutarse sin problemas incluso en una RTX 4090 o una Mac con 32GB de RAM, lo que lo favorece para despliegues locales y uso on-device
  • En plataformas como OpenHands puede integrarse con bases de código locales para resolver issues rápidamente
  • También es adecuado para repositorios de código en entornos empresariales donde se requiere protección de privacidad
  • Puede aplicarse en diversos entornos de desarrollo como copilotos y plugins de IDE con agentes

Distribución y uso

  • Devstral se ofrece bajo licencia Apache 2.0, por lo que cualquiera puede usarlo, personalizarlo y redistribuirlo gratuitamente
  • Se ofrecen guías de uso y tutoriales del modelo, y puede descargarse desde diversas plataformas como HuggingFace, Ollama, Kaggle, Unsloth y LM Studio
  • También está disponible en la API oficial de Mistral con el nombre devstral-small-2505, y adopta la misma política de precios de uso que Mistral Small 3.1
  • Si en un entorno empresarial se requiere personalización avanzada, como fine-tuning especializado para codebases privadas, es posible hacer una consulta

Planes a futuro

  • Devstral se encuentra actualmente en etapa de research preview
  • Más adelante también se lanzarán modelos de coding agéntico de mayor escala
  • Si deseas consultar sobre el uso de Devstral o sobre los distintos modelos y soluciones de Mistral, puedes hacerlo a través del contacto oficial

1 comentarios

 
GN⁺ 2025-05-22
Comentarios de Hacker News
  • Últimamente primero reviso el tamaño del archivo con Ollama, y vi que este modelo anda por los 14 GB; ver https://ollama.com/library/devstral/tags. En una Mac M2 normalmente se necesita además como un 10% extra de memoria sobre el tamaño del archivo del modelo, así que esto me ayuda a verificar cuánto RAM queda libre para ver qué apps puedo ejecutar en paralelo. Los modelos de menos de 20 GB suelen no afectar mucho el uso de otros programas. Tengo bastantes expectativas con este modelo

    • Necesito recomendaciones de software de desarrollo agéntico que funcione bien con modelos locales. Probé Cursor, pero me dejó menos satisfecho de lo que esperaba; al final sentí que era mejor ir alternando entre el editor y ChatGPT. También intenté con Localforge y aider, pero con modelos locales van algo lentos

    • Coincido. Yo también levanté este modelo en local y me dejó muy buena impresión. Confirmé que maneja bien código complicado relacionado con Ruby y rspec. Planeo probarlo también con aider en situaciones con mucho contexto

  • La puntuación en SWE-Bench es muy alta para el tamaño de un modelo open source. Ese 46.8% está por encima de o3-mini (con Agentless-lite) y de Claude 3.6 (con AutoCodeRover), y queda apenas un poco por debajo de Claude 3.6 con el scaffold propietario de Anthropic. Si además consideras que puede correrse casi gratis, es un modelo bastante sorprendente

    • O es “sorprendente”, o da sospecha de que el benchmark no está cumpliendo bien su función

    • Habría que confirmar si en realidad se refieren a Claude 3.7

  • Dejo esto como referencia para quienes no tienen una tarjeta de video con 24 GB de RAM. Yo estoy usando este modelo con Ollama para tareas simples en un entorno de 8 GB de RAM. Para trabajos con ventanas de contexto grandes o sensibles al tiempo, recomiendo usar la API paga.

    • Comparto cifras detalladas como tiempo total, carga y tasa de evaluación de tokens:
      • Ejemplo 1: 35 segundos, 6.27 tokens por segundo
      • Ejemplo 2: 4 minutos 44 segundos, 5.79 tokens por segundo
    • Se siente aproximadamente un 20% más lento frente a una llamada por API. Supongo que es por no contar con la GPU recomendada.
    • El rendimiento en benchmark parece curiosamente bien ajustado para su tamaño, y creo que probablemente se deba a pruebas iterativas de optimización sobre benchmarks durante el desarrollo. Veo que la mayoría de los LLM comercializados en IT siguen una estrategia parecida. Al final, verificar que “sirve para usarse sin gastar tiempo en pruebas” tampoco es un mal punto intermedio
  • Estoy en la postura de no confiar en los benchmarks presentados. No lo he usado directamente, pero en mis resultados los modelos de la familia Mistral quedan en la parte baja, parecidos a Llama. No espero que el rendimiento real llegue a este nivel

    • Hace poco trabajé con el modelo de All Hands, y también se supone que está basado en Mistral. Mi impresión es que no está al nivel de Claude 3.7 Sonnet, pero sí se siente bastante estable. Para un “asistente de pair programming con IA” es suficientemente útil, y también puede encargarse de trabajo estructural grande si le divides las tareas en pasos más pequeños

    • Yo tampoco me lo creo mucho. Estas cosas hay que probarlas directamente. Por ejemplo, para mí Qwen3 fue más bien un retroceso, y GLM4 es el estándar actual. El modelo 70b de cogito también es realmente bueno, pero casi no se menciona. Creo que varía mucho según el proyecto, el lenguaje o el caso de uso. Aun así, sí pienso probar este modelo

  • Me gusta que tenga licencia Apache 2.0. Son condiciones de uso claras, no una licencia con reglas complejas de “open weights”. Eso es una ventaja

    • Creo que esa es una fortaleza estratégica de Mistral. Para trabajos moralmente aceptables, recomendaría usar Gemma 3. Para usos que no entren ahí, entonces aparece la posibilidad de elegir un LLM con licencia Apache
  • Me gusta la idea de que la UE cubra el costo de crear este agente/modelo. Si de verdad rinde tanto como promete, permitiría que Mistral siga enfocada en lo suyo, y desde la perspectiva europea sería un uso inteligente del presupuesto

    • Si mis impuestos van al desarrollo de modelos con licencia apache/mit, estoy a favor. Como mínimo, sirve para mantener alternativas y contener el monopolio de las grandes empresas. Al final es importante para evitar que unas pocas compañías gigantes dominen todo

    • De hecho, la UE ya gastó dinero en construir supercomputadoras para que las usen startups de IA, y Mistral participa en ese programa como socio

  • Me topé con este modelo por casualidad mientras probaba el soporte de herramientas de LLamaIndex. Estoy experimentando con distintos modelos en mi propia solución de coding agéntico, y justo cuando iba a aplicar el enfoque ReAct apareció este modelo y me sorprendió.

    • Pero en mi sistema de agentes, con este modelo siempre devuelve “sin herramientas”. Probé incluso instrucciones explícitas en varios prompts del agente, del tipo “haz la tarea bar con la herramienta foo”, y aun así no logro resolverlo. El ToolSpec es un objeto estándar de Pydantic con anotaciones y demás, y con otros modelos ya había visto que detectaban bien por sí solos el uso de herramientas

    • Se puede forzar el esquema de herramientas restringiendo la salida. Con un poco de ayuda, se puede aplicar a cualquier modelo

  • Qué bueno que Mistral vuelva a lanzar un modelo realmente open source. Sigo sintiendo que Europa necesita empresas de IA competitivas.

    • Los modelos nuevos de Mistral últimamente son impresionantes. Estoy pagando Le Chat Pro y lo uso. Además de eso, Mistral Small también me parece realmente útil. Incluso estoy desarrollando una startup con integración de Mistral
  • Me gustaría recibir recomendaciones de modelos recientes para ejecución local en equipos modestos, por ejemplo una MacBook Air, o recursos relacionados. Quisiera saber de antemano, sin tener que probar, qué modelos son “realmente usables” según las especificaciones de cada equipo. También necesito evaluar si de verdad hace falta seguir guardando 2 o 3 modelos por tarea en Ollama. Apple Intelligence todavía no es la respuesta

    • Como modelos generales optimizados para correr en local, recomiendo Gemma 3 o la versión más reciente de Mistral Small. En Windows, el cuello de botella de velocidad es la VRAM, pero en las Mac serie M la memoria en chip permite usarlos rápido. El tamaño del modelo que puedes correr depende de la RAM real menos lo que ocupa macOS y el espacio que necesitas para otras aplicaciones.

      • Para calcular memoria por modelo, conviene tomar como referencia el tamaño de los modelos cuantizados (baja precisión) que ofrecen sitios como HuggingFace. Q4_K_M suele ser un buen valor por defecto.
      • En el caso de Devstral, son 14.3 GB, y además hacen falta entre 1 y 8 GB extra para almacenar contexto.
      • Ejemplos:
        • MacBook Air de 32 GB → Devstral (14.3 GB) + 4 GB, con unos 14 GB para el sistema y otras apps
        • MacBook Air de 16 GB → Gemma 3 12B (7.3 GB) + 2 GB, con unos 7 GB libres
        • MacBook de 8 GB → Gemma 3 4B (2.5 GB) + 1 GB, en la práctica no se recomienda para uso real
    • Lo más efectivo es probar por tu cuenta. Si puedes asegurar el espacio de cada modelo, llama.cpp (https://github.com/ggml-org/llama.cpp) se instala y compila fácilmente, y tiene muy buen soporte para MacBook Air con chips serie M. Yo personalmente uso sobre todo LMStudio (https://lmstudio.ai/). Tiene una interfaz sencilla, al estilo de ChatGPT o Claude, y dentro del programa puedes buscar y descargar modelos directamente. Solo con LMStudio ya alcanza para alguien que recién empieza; yo lo uso con frecuencia en una MacBook Air M2

  • Tengo curiosidad por cómo se compara realmente el rendimiento de este modelo frente a un LLM hosted, por ejemplo Claude 3.7

    • En realidad los casos de uso son completamente distintos, así que compararlos directamente no tiene mucho sentido