MAI-Code-1-Flash

(microsoft.ai)

3 puntos por GN⁺ 2026-06-03 | 1 comentarios | Compartir por WhatsApp

MAI-Code-1-Flash es el nuevo modelo de codificación de Microsoft, orientado a ofrecer soporte rápido y eficiente en los flujos de trabajo diarios de los desarrolladores, y ya se está desplegando para usuarios individuales de GitHub Copilot en VS Code
Microsoft entrenó este modelo directamente con el arnés de GitHub Copilot, para que interactúe mejor con las herramientas y sistemas de entornos reales de desarrollo
Con control adaptativo de longitud de respuesta, responde de forma breve a solicitudes simples y usa más presupuesto de razonamiento en tareas complejas, resolviendo problemas más difíciles con hasta 60% menos tokens {p:60}
En la evaluación de arnés de producción de Microsoft, mostró una tasa de aprobación más alta que Claude Haiku 4.5 en los 4 benchmarks clave de codificación, y en SWE-Bench Pro quedó 16 puntos arriba con 51.2% frente a 35.2%
En un benchmark separado de razonamiento adversarial, registró 85.8% de exactitud ajustada en 186 preguntas y 34 categorías, aunque categorías adversariales clave como Einstellung trap siguieron por debajo de 50% de exactitud, lo que deja margen de mejora

Lanzamiento y despliegue

MAI-Code-1-Flash es el nuevo modelo de codificación de Microsoft, creado para brindar soporte rápido y eficiente en el trabajo diario de los desarrolladores
Microsoft lo construyó de extremo a extremo y utilizó datos limpios y con licencias adecuadas
Se está desplegando para usuarios individuales de GitHub Copilot en VS Code, y puede usarse desde el selector de modelos y debajo del Auto picker predeterminado
No requiere configuración adicional; a medida que avance el despliegue, GitHub Copilot enviará tareas a MAI-Code-1-Flash mediante el Auto picker o lo mostrará directamente en el selector de modelos
Los comentarios se recibirán en GitHub Community

Diseño centrado en el flujo de trabajo del desarrollador

MAI-Code-1-Flash no fue creado solo para optimizar benchmarks, sino poniendo en el centro los flujos de trabajo productivos que los desarrolladores usan todos los días
Fue entrenado directamente con el arnés de GitHub Copilot usado en producción, para aprender a manejar las herramientas y sistemas que lo rodean en tareas de codificación agéntica
Durante el entrenamiento, se evaluaron checkpoints con tareas clave de ingeniería de software, preguntas y respuestas sobre repositorios, refactorización y tareas basadas en telemetría adaptadas del uso real de GitHub Copilot
El objetivo de diseño es alinear entrenamiento, evaluación y entorno de producción para que las mejoras offline se traduzcan en calidad real para los desarrolladores

Eficiencia de tokens y forma de respuesta

Aprendió un control adaptativo de longitud de solución para ajustar la profundidad de la respuesta según la dificultad de la tarea
Responde de forma concisa a solicitudes simples y usa más presupuesto de razonamiento en problemas que requieren análisis más profundo o cambios de código más amplios
Los desarrolladores pueden empezar a ver resultados útiles más rápido
MAI-Code-1-Flash resuelve problemas más difíciles con hasta 60% menos tokens, buscando reducir latencia, bajar costos, mejorar el retorno por token y hacer más fluidos los flujos de trabajo conversacionales

Resultados en benchmarks de codificación

Microsoft evaluó MAI-Code-1-Flash y Claude Haiku 4.5 con el mismo arnés de producción en SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual y Terminal Bench 2
La evaluación midió la tasa de éxito de las tareas y el número promedio de tokens de solución necesarios para completar cada tarea
MAI-Code-1-Flash registró una tasa de aprobación más alta que Claude Haiku 4.5 en los 4 benchmarks clave de codificación evaluados
En las diversas tareas reales de SWE-Bench Pro, quedó 16 puntos arriba con 51.2% frente a 35.2%
En SWE-Bench Verified, resolvió problemas más difíciles con hasta 60% menos tokens, mostrando que precisión y eficiencia pueden mejorar al mismo tiempo

Seguimiento de instrucciones, razonamiento y límites

MAI-Code-1-Flash superó a Claude Haiku 4.5 en todos los benchmarks mostrados en la tabla, con la mayor diferencia en seguimiento preciso de instrucciones en IF Bench, donde logró +28.9
En la evaluación basada en rúbrica de Advanced IF, mostró la diferencia más estrecha con +14.5
Su fuerte desempeño en seguimiento de instrucciones también se traslada al uso de herramientas agénticas
También superó a Claude Haiku 4.5 en capacidades clave de razonamiento para matemáticas, ciencia y codificación para generación visual
Los benchmarks estándar pueden recompensar la memorización tanto como el razonamiento; un modelo que haya visto el problema de Monty Hall puede acertar la respuesta, pero fallar si se invierten los premios
Microsoft creó un benchmark de 186 preguntas y 34 categorías centrado en trampas adversariales como inverted classics, impossible tasks y underdetermined scenarios
MAI-Code-1-Flash superó en general a Claude Haiku 4.5 en este benchmark adversarial y alcanzó 85.8% de exactitud ajustada
Mostró un rendimiento especialmente fuerte en razonamiento, seguimiento de instrucciones y reconocimiento de problemas imposibles, pero categorías adversariales clave como Einstellung trap siguieron por debajo de 50% de exactitud, por lo que aún hay margen de mejora

1 comentarios

GN⁺ 2026-06-03

Comentarios de Hacker News

Según la model card, este es un modelo de 137B parámetros en total
El rendimiento no se ve tan bueno: MAI-Code-1-Flash (137B-A5B) obtiene 51% en SWE-bench pro, mientras que Qwen3.6-35B-A3B obtiene 49.5% en SWE-bench pro (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
Lo comparan con Claude Haiku, pero Haiku no es un buen modelo, y queda por debajo incluso de modelos abiertos pequeños que puedes correr localmente o por API por alrededor del 10% del costo
- Parece que el punto clave es que este modelo es un modelo pequeño que compite con Haiku, y ojalá después salga uno de nivel "Sonnet" y luego un competidor de nivel Opus
  Me preguntaba por qué Microsoft tardaba tanto en ofrecer modelos propios en Copilot, y ahora pienso que quizá era parte de su acuerdo con OpenAI
- Si es 137B-A5B, entonces no es un modelo de 5B parámetros como sugería el título anterior
Está bien para empezar y la competencia es bienvenida, pero casi nunca he usado modelos pequeños en la nube como Haiku 4.5 para programar
Son simpáticos, pero en programación seria muchas veces terminan desperdiciando mi costoso tiempo, y esto tampoco es suficiente para hacerme volver a GitHub Copilot, que cancelé ayer
Hasta ayer GitHub Copilot tenía precios competitivos, pero cambió a un esquema de asignación por token que está entre los más caros en cobro por solicitud. Si quieres reírte, mira el subreddit en llamas: https://www.reddit.com/r/GithubCopilot
Después me cambié a DeepSeek Flash high, que es casi gratis y de nivel Sonnet+, y si necesito un modelo más inteligente probablemente me suscriba a Codex por $20 al mes para usar GPT 5.5, que considero lo mejor disponible ahora mismo
- Organizo el trabajo con modelos grandes como un grafo de tareas ordenado topológicamente, asigno modelos pequeños a cada tarea según su complejidad, y luego el modelo grande evalúa y corrige donde hace falta
  Con este enfoque uso Haiku bastante seguido para tareas cotidianas, y también puedo manejar tareas de alta complejidad que toman varias horas con mejores resultados y a mucho menor costo. El orquestador padre organiza las tareas de forma efectiva, revisa la calidad e integra donde hace falta, realizando una enorme cantidad de trabajo dentro de una sola ventana de contexto
  No uso Haiku directamente, pero muchas veces representa entre 30% y 40% del uso de tokens en tareas grandes. Mejora tanto el tiempo de finalización como el costo, y Haiku es mejor para seguir instrucciones y planes literales sin “reinterpretarlos”, mientras que los modelos de nivel Opus tienden a dudar y repreguntar durante su proceso de razonamiento
  Así que Haiku no es una pérdida de tiempo, sino que me ahorra muchísimo tiempo. Claro, para llegar a esto primero invertí mucho tiempo en construir un sistema de orquestación e iterarlo continuamente. Curiosamente, mi experiencia como director y luego como distinguished engineer me dio las herramientas para mantener esto funcionando de forma estable, y un flujo multiagente con capacidades variadas no es tan distinto de la dinámica de una organización de 1000 ingenieros
- Al comparar varios modelos para encontrar bugs de seguridad difíciles, en ese proceso mi confianza en Haiku y Sonnet cayó abruptamente
  Qwen 3.6 27B autoalojado superó a ambos de forma consistente en detección de bugs de seguridad, y fue un resultado bastante impactante. Pensaba que Qwen estaría al nivel de Haiku o un poco por debajo, y definitivamente por debajo de Sonnet
  DeepSeek y MiMo lo hacen mucho mejor que Haiku y Sonnet, cuestan solo una fracción y están cerca del nivel Opus/GPT 5.5
  Salvo que te salgan gratis o vengan incluidos en una suscripción que normalmente ni agotas, casi no veo razones para usar Haiku o Sonnet
- Estoy casi en la misma situación. DeepSeek casi no rechazaba cosas, y gracias a los valores chinos había mucha menos fricción en cosas como ingeniería inversa, encontrar archivos con copyright y trabajar con código fuente de procedencia dudosa
  Aunque Copilot bajara el precio un 90%, no creo que volvería
- Esto parece estar en el rango de Qwen 3.6, Gemma 4 y Nemotron 3 Super
  Hay muchos modelos competitivos similares a Haiku, y algunos son mucho más pequeños y baratos, como Qwen 3.6 35B-A3B. Puedes correrlos en una laptop, así que no hay necesidad de alquilárselos a Microsoft
  La nueva factura de Copilot me sorprendió, pero para quienes quieran quedarse en el ecosistema puede ser una opción utilizable; para la mayoría, sobran alternativas mejores
- Que Codex venga incluido en el plan de ChatGPT de $20 al mes tiene muy buena relación precio-rendimiento
  Incluso con solo ChatGPT Premium está bien; aunque regularmente te topes con límites de uso, igual alcanza para hacer la mayoría de las cosas
¿De verdad hay gente que usa modelos pequeños para programar? Si sí, me da curiosidad cómo los usan
Normalmente hago todo con Opus. Quisiera escuchar la opinión de alguien que haya probado ambas cosas: si usan un modelo más pesado para planificación/diseño/arquitectura y delegan las tareas estructuradas a estos modelos pequeños, o algo por el estilo
- En el trabajo uso Opus 4.x, y en casa uso estos modelos “pequeños” (20~80B, 3~4B activos)
  Lamentablemente, todavía no hay punto de comparación
  Con Opus puedo trabajar con confianza en diseño, propuestas de arquitectura y cambios de código incluso en codebases complejos
  Los modelos pequeños se sienten más como un “intento”. Sirven para tareas pequeñas, pero en tareas complejas a menudo terminan dando más trabajo que hacerlo uno mismo
  Ojalá fuera distinto, y quizá en 1 o 2 años sí lo sea
- Usar un modelo más pesado para planificación/diseño/arquitectura y dejar las tareas estructuradas a un modelo pequeño siempre ha sido así
  claude code tiene opusplan: usa Opus en modo de planificación y luego cambia a Sonnet para la ejecución
  https://code.claude.com/docs/en/model-config#opusplan-model-...
  Edit: también se puede configurar para usar Sonnet en planificación y Haiku en ejecución, o cualquier otra combinación que quieras
  https://code.claude.com/docs/en/model-config#control-the-mod...
- Haiku es bastante barato y no arruina demasiado las cosas, así que antes lo usaba para programación interactiva en proyectos existentes con el plan viejo de Copilot
  Para funciones simples no hago un plan completo. Escribo un poco de código y con una línea corta de prompt le digo al modelo qué tiene que hacer. A veces pongo comentarios temporales en el código para orientarlo
  Normalmente, si el cambio se queda dentro de un archivo o paquete, Haiku puede seguir la solicitud y no lo arruina demasiado. Con el tiempo también desarrollé habilidad para darle dirección. Durante los meses en que usé GitHub Copilot, incluso hubo veces en que al final del mes me apresuraba a gastar los créditos que me sobraban
  A veces solo con autocompletado de código por IA ya va bastante bien. Escribes en un comentario temporal lo que debe hacer el código y con puro Tab-Tab-Tab hasta puede completar una función entera
  La gente tiende a irse por modelos más avanzados porque cree que van a romper menos cosas, pero si realmente entiendes el código, suele ser más fácil trabajar de forma interactiva con un modelo inferior
- Divido la ejecución de los cambios como una responsabilidad aparte
  Pongo el chat principal como un “orquestador”, que es Opus, y una vez fijado el objetivo hago que empuje hasta alcanzarlo usando en secuencia los siguientes subagentes
  1. Ejecución de etapa (Sonnet): trabaja durante 30 minutos / 100k tokens siguiendo las instrucciones del orquestador
  2. Revisión (Opus): revisa minuciosamente el trabajo de la etapa anterior para detectar errores y verificar fidelidad a las instrucciones; luego corrige y registra en un archivo oportunidades de mejorar la configuración de agentes + herramientas para reducir errores y uso de tokens
  3. Auto-mejora (Opus): implementa elementos de auto-mejora de alto impacto que no requieren intervención del usuario
    Repetir: seguir hasta que se agote el presupuesto de tokens de la sesión del orquestador. Puedes poner algo como 1M
    La lógica básica es mantener cada etapa en un tamaño manejable para aumentar el cumplimiento de instrucciones y bajar costos. Los tokens en caché también cuestan. Como los tokens del prompt son mucho más baratos que los tokens generados, se ahorra bastante si haces que Opus revise principalmente en vez de liderar todo
    La etapa de auto-mejora es muy cara, pero las mejoras se acumulan. Si vas a correr un trabajo de varios días o semanas, no hacerlo sale mucho más caro
    Edit: esto lo hago tanto con modelos de Anthropic en Claude Code como con modelos de la familia Qwen para uso offline
- Claude Code también lanza muchos subagentes con Haiku
  Este modelo tiene baja tasa de alucinaciones, así que es bueno para tareas de exploración, y me parece que el mejor uso del modelo de aquí sería algo parecido. Muchas tareas empiezan lanzando varios agentes de exploración antes de planificar o editar, y después se resuelven con unas pocas llamadas de herramientas, así que también consumen muchos tokens
Están comparando este modelo con Haiku 4.5
Ni con Opus ni con Sonnet, sino con Haiku, el modelo más pequeño de Anthropic, y encima con una versión de hace 3 generaciones
- 4.5 sigue siendo el modelo Haiku más reciente
¿Por qué todos reimplementan el scroll de ventana de una forma tan desastrosa?
- Probablemente lo hicieron con vibe coding. Yo lo bloqueo con StopTheMadness
- Me saltó a la vista de inmediato y lo cerré al instante
Sigue siendo rarísimo que los benchmarks estén todavía así de bajos y aun así el modelo se promocione como si fuera revolucionario
Si dicen que no importa tener baja capacidad de programación, entonces hay que mirar junto con eso el aumento en el precio del token y la configuración de modelo “generalista”
¿Por qué no venderlo como un agente para matemáticas? ¿Por qué tengo que configurar yo 4 agentes para que verifiquen el trabajo entre sí?
- Según entiendo, a diferencia de otros modelos, los modelos MAI todavía no han sido afinados con un dataset sintético diseñado específicamente para inflar las puntuaciones de benchmark
- La clave es la relación precio/rendimiento
  Para 5B parámetros, sacar esa puntuación es bastante bueno, y hasta hace poco habría sido casi increíble
  Los modelos pequeños van a seguir mejorando, y creo que los modelos cloud de vanguardia también se van a hacer más pequeños
  Esa es otra razón por la que la expansión masiva de infraestructura actual se siente un poco como los ferrocarriles
La entrada del blog de presentación tiene mucha más información
https://microsoft.ai/news/introducingmai-code-1-flash/
Y también está la model card
https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
El 5B activo del título parece venir de un anuncio más amplio sobre 7 modelos MAI
https://microsoft.ai/news/building-a-hillclimbing-machine-la...
Hubo que volver a recordar para qué modelo fue hecho Haiku en primer lugar
Anthropic no ha estado empujando con mucha fuerza el marketing de Haiku últimamente
Si se necesita un modelo ligero, se usa Sonnet. En el plan Max sale casi gratis y es bastante rápido. No se ve muy claro qué lugar tendría Haiku en el coding general
Parece que Haiku es un modelo para cuando se necesita resumen/clasificación a gran escala
Que Microsoft haya tomado a Haiku como punto de referencia es poner la vara baja
- Decir que “en el plan Max sale casi gratis” es una contradicción graciosa
Ojalá probaran el sitio web en Safari
Casi todos los usuarios de iOS usan Safari por defecto, y la experiencia de escritorio también se parece bastante a la móvil, así que es fácil de probar
Ese efecto de scroll se traba por completo en mi entorno. Entiendo que en Chrome/Edge funciona bien
- En Firefox+macOS también claramente hay algo como secuestro del scroll y se siente horrible
Si hubiera salido aunque fuera ayer, quizá se habría evitado que la selección automática de modelos de Copilot usara un modelo 9 veces más caro y se quemara en silencio la cuota mensual en una sola tarde

MAI-Code-1-Flash

Lanzamiento y despliegue

Diseño centrado en el flujo de trabajo del desarrollador

Eficiencia de tokens y forma de respuesta

Resultados en benchmarks de codificación

Seguimiento de instrucciones, razonamiento y límites

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News