- Proporciona un pipeline de inferencia de LLM ejecutable en Apple Neural Engine (ANE)
- Permite inferencia on-device en apps basadas en Swift/C++ o apps de iOS/macOS a partir de modelos de Hugging Face
- La versión más reciente, 0.3.0 Alpha, incluye herramientas para convertir modelos de Hugging Face al formato CoreML, una implementación CLI de inferencia basada en Swift, ejemplos de apps para iOS/macOS, código de pruebas en Python y herramientas de benchmark
- Soporta los modelos LLaMA 3.2 (1B / 8B) y Distilled DeepSeek R1 8B/DeepHermes 3B y 8B, con planes de expandirse a más arquitecturas de modelos en el futuro
- El objetivo es ofrecer un framework flexible y fácil de usar para convertir modelos de Hugging Face para ANE
1 comentarios
Comentarios de Hacker News
Se preguntan si hubo seguimiento sobre la afirmación de Apple de que sus modelos optimizados para ANE son "hasta 10 veces más rápidos y consumen 14 veces menos memoria"
Cuando salieron las laptops con Snapdragon X, se afirmaba que la NPU se usaría para LLM
Sintieron que el Neural Engine es silicio desperdiciado
La principal ventaja es que el consumo de energía es mucho menor
En el README falta la información más importante
Intentan averiguar cuál es el secreto de esta tecnología
La memoria unificada de Apple proporciona suficiente RAM para ejecutar modelos grandes que requieren varias GPU
Se preguntan si coreml aprovecha ANE
Se preguntan si hay ventajas de rendimiento en velocidad de inferencia en MacBook con chips serie M
Sorprende el control estricto de Apple sobre ANE