MAI-Code-1-Flash
(microsoft.ai)- MAI-Code-1-Flash es el nuevo modelo de codificación de Microsoft, orientado a ofrecer soporte rápido y eficiente en los flujos de trabajo diarios de los desarrolladores, y ya se está desplegando para usuarios individuales de GitHub Copilot en VS Code
- Microsoft entrenó este modelo directamente con el arnés de GitHub Copilot, para que interactúe mejor con las herramientas y sistemas de entornos reales de desarrollo
- Con control adaptativo de longitud de respuesta, responde de forma breve a solicitudes simples y usa más presupuesto de razonamiento en tareas complejas, resolviendo problemas más difíciles con hasta 60% menos tokens {p:60}
- En la evaluación de arnés de producción de Microsoft, mostró una tasa de aprobación más alta que Claude Haiku 4.5 en los 4 benchmarks clave de codificación, y en SWE-Bench Pro quedó 16 puntos arriba con 51.2% frente a 35.2%
- En un benchmark separado de razonamiento adversarial, registró 85.8% de exactitud ajustada en 186 preguntas y 34 categorías, aunque categorías adversariales clave como Einstellung trap siguieron por debajo de 50% de exactitud, lo que deja margen de mejora
Lanzamiento y despliegue
- MAI-Code-1-Flash es el nuevo modelo de codificación de Microsoft, creado para brindar soporte rápido y eficiente en el trabajo diario de los desarrolladores
- Microsoft lo construyó de extremo a extremo y utilizó datos limpios y con licencias adecuadas
- Se está desplegando para usuarios individuales de GitHub Copilot en VS Code, y puede usarse desde el selector de modelos y debajo del Auto picker predeterminado
- No requiere configuración adicional; a medida que avance el despliegue, GitHub Copilot enviará tareas a MAI-Code-1-Flash mediante el Auto picker o lo mostrará directamente en el selector de modelos
- Los comentarios se recibirán en GitHub Community
Diseño centrado en el flujo de trabajo del desarrollador
- MAI-Code-1-Flash no fue creado solo para optimizar benchmarks, sino poniendo en el centro los flujos de trabajo productivos que los desarrolladores usan todos los días
- Fue entrenado directamente con el arnés de GitHub Copilot usado en producción, para aprender a manejar las herramientas y sistemas que lo rodean en tareas de codificación agéntica
- Durante el entrenamiento, se evaluaron checkpoints con tareas clave de ingeniería de software, preguntas y respuestas sobre repositorios, refactorización y tareas basadas en telemetría adaptadas del uso real de GitHub Copilot
- El objetivo de diseño es alinear entrenamiento, evaluación y entorno de producción para que las mejoras offline se traduzcan en calidad real para los desarrolladores
Eficiencia de tokens y forma de respuesta
- Aprendió un control adaptativo de longitud de solución para ajustar la profundidad de la respuesta según la dificultad de la tarea
- Responde de forma concisa a solicitudes simples y usa más presupuesto de razonamiento en problemas que requieren análisis más profundo o cambios de código más amplios
- Los desarrolladores pueden empezar a ver resultados útiles más rápido
- MAI-Code-1-Flash resuelve problemas más difíciles con hasta 60% menos tokens, buscando reducir latencia, bajar costos, mejorar el retorno por token y hacer más fluidos los flujos de trabajo conversacionales
Resultados en benchmarks de codificación
- Microsoft evaluó MAI-Code-1-Flash y Claude Haiku 4.5 con el mismo arnés de producción en SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual y Terminal Bench 2
- La evaluación midió la tasa de éxito de las tareas y el número promedio de tokens de solución necesarios para completar cada tarea
- MAI-Code-1-Flash registró una tasa de aprobación más alta que Claude Haiku 4.5 en los 4 benchmarks clave de codificación evaluados
- En las diversas tareas reales de SWE-Bench Pro, quedó 16 puntos arriba con 51.2% frente a 35.2%
- En SWE-Bench Verified, resolvió problemas más difíciles con hasta 60% menos tokens, mostrando que precisión y eficiencia pueden mejorar al mismo tiempo
Seguimiento de instrucciones, razonamiento y límites
- MAI-Code-1-Flash superó a Claude Haiku 4.5 en todos los benchmarks mostrados en la tabla, con la mayor diferencia en seguimiento preciso de instrucciones en IF Bench, donde logró +28.9
- En la evaluación basada en rúbrica de Advanced IF, mostró la diferencia más estrecha con +14.5
- Su fuerte desempeño en seguimiento de instrucciones también se traslada al uso de herramientas agénticas
- También superó a Claude Haiku 4.5 en capacidades clave de razonamiento para matemáticas, ciencia y codificación para generación visual
- Los benchmarks estándar pueden recompensar la memorización tanto como el razonamiento; un modelo que haya visto el problema de Monty Hall puede acertar la respuesta, pero fallar si se invierten los premios
- Microsoft creó un benchmark de 186 preguntas y 34 categorías centrado en trampas adversariales como inverted classics, impossible tasks y underdetermined scenarios
- MAI-Code-1-Flash superó en general a Claude Haiku 4.5 en este benchmark adversarial y alcanzó 85.8% de exactitud ajustada
- Mostró un rendimiento especialmente fuerte en razonamiento, seguimiento de instrucciones y reconocimiento de problemas imposibles, pero categorías adversariales clave como Einstellung trap siguieron por debajo de 50% de exactitud, por lo que aún hay margen de mejora
1 comentarios
Comentarios de Hacker News
Según la model card, este es un modelo de 137B parámetros en total
El rendimiento no se ve tan bueno: MAI-Code-1-Flash (137B-A5B) obtiene 51% en SWE-bench pro, mientras que Qwen3.6-35B-A3B obtiene 49.5% en SWE-bench pro (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
Lo comparan con Claude Haiku, pero Haiku no es un buen modelo, y queda por debajo incluso de modelos abiertos pequeños que puedes correr localmente o por API por alrededor del 10% del costo
Me preguntaba por qué Microsoft tardaba tanto en ofrecer modelos propios en Copilot, y ahora pienso que quizá era parte de su acuerdo con OpenAI
Está bien para empezar y la competencia es bienvenida, pero casi nunca he usado modelos pequeños en la nube como Haiku 4.5 para programar
Son simpáticos, pero en programación seria muchas veces terminan desperdiciando mi costoso tiempo, y esto tampoco es suficiente para hacerme volver a GitHub Copilot, que cancelé ayer
Hasta ayer GitHub Copilot tenía precios competitivos, pero cambió a un esquema de asignación por token que está entre los más caros en cobro por solicitud. Si quieres reírte, mira el subreddit en llamas: https://www.reddit.com/r/GithubCopilot
Después me cambié a DeepSeek Flash high, que es casi gratis y de nivel Sonnet+, y si necesito un modelo más inteligente probablemente me suscriba a Codex por $20 al mes para usar GPT 5.5, que considero lo mejor disponible ahora mismo
Con este enfoque uso Haiku bastante seguido para tareas cotidianas, y también puedo manejar tareas de alta complejidad que toman varias horas con mejores resultados y a mucho menor costo. El orquestador padre organiza las tareas de forma efectiva, revisa la calidad e integra donde hace falta, realizando una enorme cantidad de trabajo dentro de una sola ventana de contexto
No uso Haiku directamente, pero muchas veces representa entre 30% y 40% del uso de tokens en tareas grandes. Mejora tanto el tiempo de finalización como el costo, y Haiku es mejor para seguir instrucciones y planes literales sin “reinterpretarlos”, mientras que los modelos de nivel Opus tienden a dudar y repreguntar durante su proceso de razonamiento
Así que Haiku no es una pérdida de tiempo, sino que me ahorra muchísimo tiempo. Claro, para llegar a esto primero invertí mucho tiempo en construir un sistema de orquestación e iterarlo continuamente. Curiosamente, mi experiencia como director y luego como distinguished engineer me dio las herramientas para mantener esto funcionando de forma estable, y un flujo multiagente con capacidades variadas no es tan distinto de la dinámica de una organización de 1000 ingenieros
Qwen 3.6 27B autoalojado superó a ambos de forma consistente en detección de bugs de seguridad, y fue un resultado bastante impactante. Pensaba que Qwen estaría al nivel de Haiku o un poco por debajo, y definitivamente por debajo de Sonnet
DeepSeek y MiMo lo hacen mucho mejor que Haiku y Sonnet, cuestan solo una fracción y están cerca del nivel Opus/GPT 5.5
Salvo que te salgan gratis o vengan incluidos en una suscripción que normalmente ni agotas, casi no veo razones para usar Haiku o Sonnet
Aunque Copilot bajara el precio un 90%, no creo que volvería
Hay muchos modelos competitivos similares a Haiku, y algunos son mucho más pequeños y baratos, como Qwen 3.6 35B-A3B. Puedes correrlos en una laptop, así que no hay necesidad de alquilárselos a Microsoft
La nueva factura de Copilot me sorprendió, pero para quienes quieran quedarse en el ecosistema puede ser una opción utilizable; para la mayoría, sobran alternativas mejores
Incluso con solo ChatGPT Premium está bien; aunque regularmente te topes con límites de uso, igual alcanza para hacer la mayoría de las cosas
¿De verdad hay gente que usa modelos pequeños para programar? Si sí, me da curiosidad cómo los usan
Normalmente hago todo con Opus. Quisiera escuchar la opinión de alguien que haya probado ambas cosas: si usan un modelo más pesado para planificación/diseño/arquitectura y delegan las tareas estructuradas a estos modelos pequeños, o algo por el estilo
Lamentablemente, todavía no hay punto de comparación
Con Opus puedo trabajar con confianza en diseño, propuestas de arquitectura y cambios de código incluso en codebases complejos
Los modelos pequeños se sienten más como un “intento”. Sirven para tareas pequeñas, pero en tareas complejas a menudo terminan dando más trabajo que hacerlo uno mismo
Ojalá fuera distinto, y quizá en 1 o 2 años sí lo sea
claude codetieneopusplan: usa Opus en modo de planificación y luego cambia a Sonnet para la ejecuciónhttps://code.claude.com/docs/en/model-config#opusplan-model-...
Edit: también se puede configurar para usar Sonnet en planificación y Haiku en ejecución, o cualquier otra combinación que quieras
https://code.claude.com/docs/en/model-config#control-the-mod...
Para funciones simples no hago un plan completo. Escribo un poco de código y con una línea corta de prompt le digo al modelo qué tiene que hacer. A veces pongo comentarios temporales en el código para orientarlo
Normalmente, si el cambio se queda dentro de un archivo o paquete, Haiku puede seguir la solicitud y no lo arruina demasiado. Con el tiempo también desarrollé habilidad para darle dirección. Durante los meses en que usé GitHub Copilot, incluso hubo veces en que al final del mes me apresuraba a gastar los créditos que me sobraban
A veces solo con autocompletado de código por IA ya va bastante bien. Escribes en un comentario temporal lo que debe hacer el código y con puro Tab-Tab-Tab hasta puede completar una función entera
La gente tiende a irse por modelos más avanzados porque cree que van a romper menos cosas, pero si realmente entiendes el código, suele ser más fácil trabajar de forma interactiva con un modelo inferior
Pongo el chat principal como un “orquestador”, que es Opus, y una vez fijado el objetivo hago que empuje hasta alcanzarlo usando en secuencia los siguientes subagentes
Repetir: seguir hasta que se agote el presupuesto de tokens de la sesión del orquestador. Puedes poner algo como 1M
La lógica básica es mantener cada etapa en un tamaño manejable para aumentar el cumplimiento de instrucciones y bajar costos. Los tokens en caché también cuestan. Como los tokens del prompt son mucho más baratos que los tokens generados, se ahorra bastante si haces que Opus revise principalmente en vez de liderar todo
La etapa de auto-mejora es muy cara, pero las mejoras se acumulan. Si vas a correr un trabajo de varios días o semanas, no hacerlo sale mucho más caro
Edit: esto lo hago tanto con modelos de Anthropic en Claude Code como con modelos de la familia Qwen para uso offline
Este modelo tiene baja tasa de alucinaciones, así que es bueno para tareas de exploración, y me parece que el mejor uso del modelo de aquí sería algo parecido. Muchas tareas empiezan lanzando varios agentes de exploración antes de planificar o editar, y después se resuelven con unas pocas llamadas de herramientas, así que también consumen muchos tokens
Están comparando este modelo con Haiku 4.5
Ni con Opus ni con Sonnet, sino con Haiku, el modelo más pequeño de Anthropic, y encima con una versión de hace 3 generaciones
¿Por qué todos reimplementan el scroll de ventana de una forma tan desastrosa?
Sigue siendo rarísimo que los benchmarks estén todavía así de bajos y aun así el modelo se promocione como si fuera revolucionario
Si dicen que no importa tener baja capacidad de programación, entonces hay que mirar junto con eso el aumento en el precio del token y la configuración de modelo “generalista”
¿Por qué no venderlo como un agente para matemáticas? ¿Por qué tengo que configurar yo 4 agentes para que verifiquen el trabajo entre sí?
Para 5B parámetros, sacar esa puntuación es bastante bueno, y hasta hace poco habría sido casi increíble
Los modelos pequeños van a seguir mejorando, y creo que los modelos cloud de vanguardia también se van a hacer más pequeños
Esa es otra razón por la que la expansión masiva de infraestructura actual se siente un poco como los ferrocarriles
La entrada del blog de presentación tiene mucha más información
https://microsoft.ai/news/introducingmai-code-1-flash/
Y también está la model card
https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
El 5B activo del título parece venir de un anuncio más amplio sobre 7 modelos MAI
https://microsoft.ai/news/building-a-hillclimbing-machine-la...
Hubo que volver a recordar para qué modelo fue hecho Haiku en primer lugar
Anthropic no ha estado empujando con mucha fuerza el marketing de Haiku últimamente
Si se necesita un modelo ligero, se usa Sonnet. En el plan Max sale casi gratis y es bastante rápido. No se ve muy claro qué lugar tendría Haiku en el coding general
Parece que Haiku es un modelo para cuando se necesita resumen/clasificación a gran escala
Que Microsoft haya tomado a Haiku como punto de referencia es poner la vara baja
Ojalá probaran el sitio web en Safari
Casi todos los usuarios de iOS usan Safari por defecto, y la experiencia de escritorio también se parece bastante a la móvil, así que es fácil de probar
Ese efecto de scroll se traba por completo en mi entorno. Entiendo que en Chrome/Edge funciona bien
Si hubiera salido aunque fuera ayer, quizá se habría evitado que la selección automática de modelos de Copilot usara un modelo 9 veces más caro y se quemara en silencio la cuota mensual en una sola tarde