- Devstral es un LLM agéntico para tareas de ingeniería de software, desarrollado en colaboración entre Mistral AI y All Hands AI
- En el benchmark SWE-Bench Verified logró un rendimiento de 46.8%, más de 6% superior al de los modelos open source existentes
- Muestra mejor rendimiento que modelos competidores (Deepseek-V3, Qwen3, etc.) y algunos modelos de código cerrado (como GPT-4.1-mini)
- Puede usarse localmente incluso en una RTX 4090 o una Mac con 32GB de RAM, por lo que es adecuado para entornos empresariales o copilotos
- Se distribuye gratuitamente bajo licencia Apache 2.0 y puede usarse y personalizarse de inmediato en diversas plataformas
Introducción a Devstral
- Devstral es un LLM agéntico (Agentic Large Language Model) para tareas de ingeniería de software como escribir código, modificarlo y resolver issues
- Fue desarrollado mediante una alianza entre Mistral AI y All Hands AI
- Devstral fue entrenado para resolver issues reales de GitHub y funciona sobre scaffolds de agentes de código como OpenHands o SWE-Agent
Rendimiento de Devstral en el benchmark SWE-Bench Verified
- Devstral registró una puntuación de 46.8% en SWE-Bench Verified, superando al mejor modelo open source por más de 6 puntos porcentuales
- Bajo el mismo scaffold de prueba (OpenHands), también mostró resultados superiores a modelos más grandes como Deepseek-V3-0324(671B) y Qwen3 232B-A22B
- Incluso en entornos de prueba personalizados, Devstral obtuvo mejor rendimiento que varios modelos alternativos de código cerrado
- Por ejemplo, mostró una precisión más de 20% superior a la del más reciente GPT-4.1-mini
Versatilidad y aplicabilidad
- Devstral puede ejecutarse sin problemas incluso en una RTX 4090 o una Mac con 32GB de RAM, lo que lo favorece para despliegues locales y uso on-device
- En plataformas como OpenHands puede integrarse con bases de código locales para resolver issues rápidamente
- También es adecuado para repositorios de código en entornos empresariales donde se requiere protección de privacidad
- Puede aplicarse en diversos entornos de desarrollo como copilotos y plugins de IDE con agentes
Distribución y uso
- Devstral se ofrece bajo licencia Apache 2.0, por lo que cualquiera puede usarlo, personalizarlo y redistribuirlo gratuitamente
- Se ofrecen guías de uso y tutoriales del modelo, y puede descargarse desde diversas plataformas como HuggingFace, Ollama, Kaggle, Unsloth y LM Studio
- También está disponible en la API oficial de Mistral con el nombre
devstral-small-2505, y adopta la misma política de precios de uso que Mistral Small 3.1
- Si en un entorno empresarial se requiere personalización avanzada, como fine-tuning especializado para codebases privadas, es posible hacer una consulta
Planes a futuro
- Devstral se encuentra actualmente en etapa de research preview
- Más adelante también se lanzarán modelos de coding agéntico de mayor escala
- Si deseas consultar sobre el uso de Devstral o sobre los distintos modelos y soluciones de Mistral, puedes hacerlo a través del contacto oficial
1 comentarios
Comentarios de Hacker News
Últimamente primero reviso el tamaño del archivo con Ollama, y vi que este modelo anda por los 14 GB; ver https://ollama.com/library/devstral/tags. En una Mac M2 normalmente se necesita además como un 10% extra de memoria sobre el tamaño del archivo del modelo, así que esto me ayuda a verificar cuánto RAM queda libre para ver qué apps puedo ejecutar en paralelo. Los modelos de menos de 20 GB suelen no afectar mucho el uso de otros programas. Tengo bastantes expectativas con este modelo
Necesito recomendaciones de software de desarrollo agéntico que funcione bien con modelos locales. Probé Cursor, pero me dejó menos satisfecho de lo que esperaba; al final sentí que era mejor ir alternando entre el editor y ChatGPT. También intenté con Localforge y aider, pero con modelos locales van algo lentos
Coincido. Yo también levanté este modelo en local y me dejó muy buena impresión. Confirmé que maneja bien código complicado relacionado con Ruby y rspec. Planeo probarlo también con aider en situaciones con mucho contexto
La puntuación en SWE-Bench es muy alta para el tamaño de un modelo open source. Ese 46.8% está por encima de o3-mini (con Agentless-lite) y de Claude 3.6 (con AutoCodeRover), y queda apenas un poco por debajo de Claude 3.6 con el scaffold propietario de Anthropic. Si además consideras que puede correrse casi gratis, es un modelo bastante sorprendente
O es “sorprendente”, o da sospecha de que el benchmark no está cumpliendo bien su función
Habría que confirmar si en realidad se refieren a Claude 3.7
Dejo esto como referencia para quienes no tienen una tarjeta de video con 24 GB de RAM. Yo estoy usando este modelo con Ollama para tareas simples en un entorno de 8 GB de RAM. Para trabajos con ventanas de contexto grandes o sensibles al tiempo, recomiendo usar la API paga.
Estoy en la postura de no confiar en los benchmarks presentados. No lo he usado directamente, pero en mis resultados los modelos de la familia Mistral quedan en la parte baja, parecidos a Llama. No espero que el rendimiento real llegue a este nivel
Hace poco trabajé con el modelo de All Hands, y también se supone que está basado en Mistral. Mi impresión es que no está al nivel de Claude 3.7 Sonnet, pero sí se siente bastante estable. Para un “asistente de pair programming con IA” es suficientemente útil, y también puede encargarse de trabajo estructural grande si le divides las tareas en pasos más pequeños
Yo tampoco me lo creo mucho. Estas cosas hay que probarlas directamente. Por ejemplo, para mí Qwen3 fue más bien un retroceso, y GLM4 es el estándar actual. El modelo 70b de cogito también es realmente bueno, pero casi no se menciona. Creo que varía mucho según el proyecto, el lenguaje o el caso de uso. Aun así, sí pienso probar este modelo
Me gusta que tenga licencia Apache 2.0. Son condiciones de uso claras, no una licencia con reglas complejas de “open weights”. Eso es una ventaja
Me gusta la idea de que la UE cubra el costo de crear este agente/modelo. Si de verdad rinde tanto como promete, permitiría que Mistral siga enfocada en lo suyo, y desde la perspectiva europea sería un uso inteligente del presupuesto
Si mis impuestos van al desarrollo de modelos con licencia apache/mit, estoy a favor. Como mínimo, sirve para mantener alternativas y contener el monopolio de las grandes empresas. Al final es importante para evitar que unas pocas compañías gigantes dominen todo
De hecho, la UE ya gastó dinero en construir supercomputadoras para que las usen startups de IA, y Mistral participa en ese programa como socio
Me topé con este modelo por casualidad mientras probaba el soporte de herramientas de LLamaIndex. Estoy experimentando con distintos modelos en mi propia solución de coding agéntico, y justo cuando iba a aplicar el enfoque ReAct apareció este modelo y me sorprendió.
Pero en mi sistema de agentes, con este modelo siempre devuelve “sin herramientas”. Probé incluso instrucciones explícitas en varios prompts del agente, del tipo “haz la tarea bar con la herramienta foo”, y aun así no logro resolverlo. El ToolSpec es un objeto estándar de Pydantic con anotaciones y demás, y con otros modelos ya había visto que detectaban bien por sí solos el uso de herramientas
Se puede forzar el esquema de herramientas restringiendo la salida. Con un poco de ayuda, se puede aplicar a cualquier modelo
Qué bueno que Mistral vuelva a lanzar un modelo realmente open source. Sigo sintiendo que Europa necesita empresas de IA competitivas.
Me gustaría recibir recomendaciones de modelos recientes para ejecución local en equipos modestos, por ejemplo una MacBook Air, o recursos relacionados. Quisiera saber de antemano, sin tener que probar, qué modelos son “realmente usables” según las especificaciones de cada equipo. También necesito evaluar si de verdad hace falta seguir guardando 2 o 3 modelos por tarea en Ollama. Apple Intelligence todavía no es la respuesta
Como modelos generales optimizados para correr en local, recomiendo Gemma 3 o la versión más reciente de Mistral Small. En Windows, el cuello de botella de velocidad es la VRAM, pero en las Mac serie M la memoria en chip permite usarlos rápido. El tamaño del modelo que puedes correr depende de la RAM real menos lo que ocupa macOS y el espacio que necesitas para otras aplicaciones.
Lo más efectivo es probar por tu cuenta. Si puedes asegurar el espacio de cada modelo,
llama.cpp(https://github.com/ggml-org/llama.cpp) se instala y compila fácilmente, y tiene muy buen soporte para MacBook Air con chips serie M. Yo personalmente uso sobre todo LMStudio (https://lmstudio.ai/). Tiene una interfaz sencilla, al estilo de ChatGPT o Claude, y dentro del programa puedes buscar y descargar modelos directamente. Solo con LMStudio ya alcanza para alguien que recién empieza; yo lo uso con frecuencia en una MacBook Air M2Tengo curiosidad por cómo se compara realmente el rendimiento de este modelo frente a un LLM hosted, por ejemplo Claude 3.7