4 puntos por GN⁺ 2025-09-28 | 1 comentarios | Compartir por WhatsApp
  • Windows ML ya está disponible de forma general y estandariza la inferencia on-device en CPU, GPU y NPU, junto con la gestión de modelos y dependencias, mejorando la eficiencia del despliegue en producción
  • En el flujo de IA híbrida que combina nube y cliente, Windows 11 pasa a ofrecer a nivel de sistema operativo un runtime de IA unificado para inferencia local
  • Con compatibilidad con ONNX Runtime y distribución automática de Execution Provider (EP), abstrae la optimización por hardware y admite reducción del tamaño de las apps y actualizaciones incrementales
  • En colaboración con AMD, Intel, NVIDIA y Qualcomm, Windows distribuye y registra los EP de cada proveedor, y ofrece segmentación detallada como la definición de políticas de dispositivo para energía/rendimiento
  • Se incluye de forma nativa en Windows App SDK 1.8.1+ y en Windows 11 24H2 o superior, y simplifica el onboarding con herramientas como AI Toolkit for VS Code y AI Dev Gallery

Resumen: objetivo y posición de Windows ML

  • Windows ML es un runtime de inferencia de IA on-device integrado en Windows 11, orientado a convertirse en la capa estándar de inferencia local en la era de la IA híbrida
    • Funciona como la capa base de Windows AI Foundry y, a través de Foundry Local, ofrece soporte ampliado para silicio
    • Busca aliviar los problemas de costo, latencia y privacidad de la nube, y ofrecer una experiencia centrada en tiempo real, seguridad y eficiencia

Composición del runtime: ONNX, EP y modelo de distribución

  • Gracias a la compatibilidad con ONNX Runtime (ORT), es posible reutilizar sin cambios las API y flujos de trabajo existentes de ORT
    • Windows se encarga de la distribución y el mantenimiento de ORT y de los Execution Provider, por lo que no hace falta incluirlos dentro de la app
    • Los EP funcionan como un puente de optimización entre el runtime y el silicio; cada proveedor los desarrolla y administra, mientras que Windows los descarga y registra dinámicamente
  • Ofrece como API de infraestructura tres beneficios: simplificación del despliegue, reducción de sobrecarga y preservación de compatibilidad
    • Detecta e instala automáticamente el EP adecuado para el dispositivo, lo que puede traducirse en una reducción de decenas a cientos de MB en el tamaño de la app
    • Mediante procesos de certificación y conformidad, busca mantener la precisión entre builds al tiempo que incorpora actualizaciones continuas
  • Con Advanced Silicon Targeting, permite definir políticas de dispositivo como NPU (bajo consumo) o GPU (alto rendimiento)
    • También ofrece la opción de AOT del modelo (precompilación) para simplificar la experiencia final del usuario

Optimización con socios de silicio

  • AMD: integración de Windows ML en toda la línea Ryzen AI, con aceleración mediante Vitis AI EP para NPU, GPU y CPU, orientada a experiencias de IA local escalables
  • Intel: EP combinado con OpenVINO para optimización selectiva de XPU (CPU, GPU y NPU), con el objetivo de mejorar eficiencia y rendimiento en PCs basadas en Core Ultra
  • NVIDIA: con TensorRT for RTX EP, aprovecha la biblioteca Tensor Core exclusiva para GPUs RTX y genera motores de inferencia optimizados por dispositivo
    • Afirma una aceleración de inferencia de más del 50% frente a DirectML y destaca la facilidad de despliegue para más de 100 millones de dispositivos Windows RTX
  • Qualcomm Technologies: aceleración por NPU con QNN EP en Snapdragon X Series, con soporte también para rutas por GPU y CPU mediante integración con ORT
    • Expresa su intención de extender este framework unificado a Copilot+ PC y a la próxima generación Snapdragon X2

Casos de adopción en el ecosistema

  • Adobe Premiere Pro / After Effects: aceleración de búsqueda de medios, etiquetado de audio y detección de escenas basada en NPU local, con planes de migrar gradualmente más modelos on-device a Windows ML
  • BUFFERZONE: análisis de páginas web en tiempo real para prevenir phishing y fraudes, ofreciendo un escenario de seguridad donde no hace falta enviar datos sensibles a la nube
  • Reincubate Camo: mejora de la calidad de video mediante visión en tiempo real, incluida segmentación de imagen, aprovechando la ruta NPU en todo tipo de silicio
  • Dot Vista (Dot Inc.): aplicación de control por voz manos libres y OCR en escenarios de accesibilidad como entornos médicos, aprovechando la NPU de Copilot+ PC
  • Wondershare Filmora: optimiza la vista previa y aplicación en tiempo real de Body Effects (Lightning Twined, Neon Ring, etc.) para NPUs de AMD, Intel y Qualcomm
  • McAfee: aplica inferencia local a la detección de deepfakes y estafas, reforzando la respuesta en entornos de redes sociales
  • Topaz Photo: ofrece funciones profesionales de mejora fotográfica con IA, como nitidez y restauración de enfoque, mediante inferencia local

Herramientas para desarrolladores y onboarding

  • Con AI Toolkit for VS Code, se unifican conversión de PyTorch a ONNX, cuantización, optimización, compilación y evaluación
    • Busca un build único orientado a Windows ML para minimizar la lógica de bifurcación entre múltiples objetivos
  • En AI Dev Gallery se pueden explorar de forma interactiva ejemplos de modelos personalizados
    • Proporciona un workspace adecuado para explorar escenarios de IA local basados en modelos y para prototipado rápido

Requisitos iniciales y objetivos de despliegue

  • Windows App SDK 1.8.1+ incluye Windows ML y es compatible con dispositivos con Windows 11 24H2 o superior
    • Tras actualizar al Windows App SDK más reciente, ofrece una ruta sencilla de llamar a la API de Windows ML → cargar un modelo ONNX → iniciar la inferencia
    • La documentación detallada, las API y los ejemplos se indican en las rutas ms/TryWinML y ms/ai-dev-gallery

Significado técnico e implicaciones

  • Al asumir el sistema operativo la gestión del ciclo de vida de ORT y los EP, se establece una estructura en la que las apps pueden centrarse en el modelo y la lógica ligera de inferencia
    • Al absorber la fragmentación del hardware y automatizar la optimización de rendimiento y consumo, reduce la complejidad de desarrollo y despliegue desde el punto de vista de la usabilidad
  • Al ofrecer tanto un diseño prioritario para NPU como una ruta GPU de alto rendimiento, sienta las bases de una IA local capaz de responder a requisitos de modo offline, privacidad y costo
    • También plantea un modelo operativo que busca consistencia en la precisión a través de las diferencias de propiedades y rendimiento entre EP de proveedores, junto con la certificación y conformidad de Windows
  • Desde la perspectiva del ecosistema, apps representativas de los ámbitos de video, seguridad, accesibilidad y creatividad ya anticipan su adopción, lo que apunta a una expansión del espacio de IA on-device
    • Los desarrolladores pueden esperar una mayor velocidad de productización con un pipeline de preparación del modelo (conversión y cuantización) → definición de políticas EP → automatización del despliegue

Puntos de atención y limitaciones

  • La calidad de la optimización de los EP y la gestión de las variaciones de rendimiento y precisión entre dispositivos siguen siendo tareas clave
    • Se necesitará gestión de versiones para la estrategia de caché y actualización del AOT del modelo y de la distribución dinámica de EP, además de mantener la compatibilidad
  • La posible superposición y reparto de funciones con DirectML, SDKs de proveedores y runtimes multiplataforma influirá en las decisiones de arquitectura
    • En productos dirigidos a múltiples sistemas operativos, será necesario evaluar el trade-off entre un núcleo de inferencia común y una ruta específica para Windows

Conclusión

  • El lanzamiento oficial de Windows ML marca un punto de inflexión gradual para convertir a Windows 11 en el entorno base de ejecución para IA local
    • Con abstracción de hardware, automatización del despliegue e integración de herramientas, reduce las barreras de productización y sienta una base para reforzar capacidad de respuesta, privacidad y eficiencia de costos al maximizar el uso de NPU/GPU
    • A medida que se combinen la adopción por parte de apps destacadas y la optimización de EP por los proveedores, se espera una rápida expansión de la IA on-device en todo el ecosistema Windows

1 comentarios

 
GN⁺ 2025-09-28
Opiniones de Hacker News
  • Ollama al principio iba más por una dirección de código abierto de “ejecutar modelos localmente de forma simple”, pero últimamente ha ampliado su alcance con funciones como búsqueda web de pago y da la impresión de que esa pureza se ha ido diluyendo; en cambio, Windows ML busca una integración profunda con el sistema operativo, aunque al quedar atado solo al ecosistema de Windows recuerda a DirectX. Ahora lo importante es si habrá alternativas además de vLLM/ONNX o de correrlo directamente sobre CUDA/ROCm, o si al final solo estamos cambiando una dependencia de proveedor por otra.
    • Ollama está enfocado en los LLM (modelos de lenguaje grandes). Viendo ejemplos diversos como Topaz Photo de Topaz Labs, mencionado en el artículo, conviene tener presente que la dirección tecnológica aquí es distinta.
  • System ONNX podría resultar bastante atractivo desde la perspectiva de las apps de Windows, aunque eso parte de asumir que el backend realmente funciona de forma confiable en la mayoría de los sistemas. Por ejemplo, en AMD hay tres opciones: ROCm, MIGraphX y Vitis, pero nunca he logrado que ninguna funcione correctamente. Como MIGraphX ya no aparece marcado como experimental (experimental), pienso darle otra oportunidad.
  • Tengo curiosidad por saber cuál es realmente más simple al compararlo en la práctica: Windows ML o el enfoque de Ollama+descarga local de LLM. En particular, desde el punto de vista de la privacidad, me pregunto cuántos datos personales se envían a Microsoft al usar Windows ML.
    • Windows ML abstrae el código para que no quede ligado a un hardware específico, permitiendo usar modelos LLM locales en distintos tipos de hardware como CPU, GPU y NPU. Esta tecnología es una versión evolucionada del anterior DirectML (DirectX for ML).
    • Ollama no soporta NPU.
  • Me pregunto cómo se dará soporte a capas personalizadas, especialmente las distintas versiones que muchas empresas adoptan en cosas como (flash) attention. Si MS no implementa esa funcionalidad en el runtime, ¿significa que no se podrán ejecutar ciertos modelos hasta entonces, o que solo podrán usarse versiones modificadas?
  • La descripción de “Windows ML es un runtime de inferencia de IA integrado y optimizado para la inferencia de modelos on-device, que facilita a desarrolladores novatos y con experiencia crear apps impulsadas por IA” suena bastante similar al anuncio reciente de Apple de que “abrirá a todos los desarrolladores el acceso al LLM on-device que es el núcleo de Apple Intelligence”.
    Junto con las nuevas funciones de Apple Intelligence, presentadas recientemente por Apple, pienso que al final esto beneficia tanto a desarrolladores como a consumidores en cualquier dispositivo, porque permite crear y usar apps centradas en la privacidad: todos ganan.
    • Este Windows ML es una evolución de Direct ML. Teniendo en cuenta que antes, como DirectX, estaba demasiado sesgado hacia C++, ahora C#, C++ y Python también podrán usarse sobre esta nueva API mediante proyecciones WinRT.
    • Yo no lo veo como exactamente lo mismo. El punto clave del anuncio de Windows ML esta vez se acerca más a “se puede ejecutar cualquier modelo”.