3 puntos por GN⁺ 2025-05-05 | 1 comentarios | Compartir por WhatsApp
  • Proporciona un pipeline de inferencia de LLM ejecutable en Apple Neural Engine (ANE)
  • Permite inferencia on-device en apps basadas en Swift/C++ o apps de iOS/macOS a partir de modelos de Hugging Face
  • La versión más reciente, 0.3.0 Alpha, incluye herramientas para convertir modelos de Hugging Face al formato CoreML, una implementación CLI de inferencia basada en Swift, ejemplos de apps para iOS/macOS, código de pruebas en Python y herramientas de benchmark
  • Soporta los modelos LLaMA 3.2 (1B / 8B) y Distilled DeepSeek R1 8B/DeepHermes 3B y 8B, con planes de expandirse a más arquitecturas de modelos en el futuro
  • El objetivo es ofrecer un framework flexible y fácil de usar para convertir modelos de Hugging Face para ANE

1 comentarios

 
GN⁺ 2025-05-05
Comentarios de Hacker News
  • Se preguntan si hubo seguimiento sobre la afirmación de Apple de que sus modelos optimizados para ANE son "hasta 10 veces más rápidos y consumen 14 veces menos memoria"

    • MLX y llama.cpp no soportan ANE
    • llama.cpp está explorando esta idea
    • MLX, aunque fue hecho por Apple, tampoco puede soportar ANE
  • Cuando salieron las laptops con Snapdragon X, se afirmaba que la NPU se usaría para LLM

    • Creyeron en las afirmaciones de Qualcomm, pero en realidad los modelos solo corrían en la CPU
    • La NPU solo es eficiente en consumo energético para modelos pequeños, pero no es adecuada para modelos grandes
    • El soporte de Vulkan es la única esperanza
  • Sintieron que el Neural Engine es silicio desperdiciado

    • Se podrían añadir más núcleos de GPU y cambiar las APIs de procesamiento neuronal a la GPU según sea necesario
    • Les gustaría aprender si hay una opinión distinta
  • La principal ventaja es que el consumo de energía es mucho menor

    • En benchmarks con M1 Max y M4 Pro, la GPU es más rápida pero consume mucha más energía
    • Los modelos ANE están limitados a 512 tokens, así que todavía es difícil usarlos en producción
  • En el README falta la información más importante

    • Quieren saber cuántos tokens/segundo se pueden lograr comparado con llama.cpp / MLX con la misma cuantización
    • Solo valdría la pena cambiar de plataforma base si hubiera mejoras importantes
  • Intentan averiguar cuál es el secreto de esta tecnología

    • Se preguntan si la clave es depender de coremltools o si hay alguna otra técnica importante
  • La memoria unificada de Apple proporciona suficiente RAM para ejecutar modelos grandes que requieren varias GPU

  • Se preguntan si coreml aprovecha ANE

    • Quieren saber si en coreml hay cuellos de botella que requieren acceso de bajo nivel
  • Se preguntan si hay ventajas de rendimiento en velocidad de inferencia en MacBook con chips serie M

    • Quieren saber si el objetivo principal es hacer que la inferencia funcione en otras plataformas (como iOS)
    • Si hay ventajas de rendimiento, les gustaría ver una comparación de tokens/segundo con Ollama
  • Sorprende el control estricto de Apple sobre ANE

    • Esperan que llegue el día en que la gente realmente pueda usarlo
    • Se preguntan si las empresas esconden la tecnología para mantener el control, o si realmente hay una gran razón técnica detrás de ello