ANEMLL - proyecto de código abierto para ejecutar LLM en Apple Neural Engine

(github.com/Anemll)

3 puntos por GN⁺ 2025-05-05 | 1 comentarios | Compartir por WhatsApp

Proporciona un pipeline de inferencia de LLM ejecutable en Apple Neural Engine (ANE)
Permite inferencia on-device en apps basadas en Swift/C++ o apps de iOS/macOS a partir de modelos de Hugging Face
La versión más reciente, 0.3.0 Alpha, incluye herramientas para convertir modelos de Hugging Face al formato CoreML, una implementación CLI de inferencia basada en Swift, ejemplos de apps para iOS/macOS, código de pruebas en Python y herramientas de benchmark
Soporta los modelos LLaMA 3.2 (1B / 8B) y Distilled DeepSeek R1 8B/DeepHermes 3B y 8B, con planes de expandirse a más arquitecturas de modelos en el futuro
El objetivo es ofrecer un framework flexible y fácil de usar para convertir modelos de Hugging Face para ANE

1 comentarios

GN⁺ 2025-05-05

Comentarios de Hacker News

Se preguntan si hubo seguimiento sobre la afirmación de Apple de que sus modelos optimizados para ANE son "hasta 10 veces más rápidos y consumen 14 veces menos memoria"
- MLX y llama.cpp no soportan ANE
- llama.cpp está explorando esta idea
- MLX, aunque fue hecho por Apple, tampoco puede soportar ANE
Cuando salieron las laptops con Snapdragon X, se afirmaba que la NPU se usaría para LLM
- Creyeron en las afirmaciones de Qualcomm, pero en realidad los modelos solo corrían en la CPU
- La NPU solo es eficiente en consumo energético para modelos pequeños, pero no es adecuada para modelos grandes
- El soporte de Vulkan es la única esperanza
Sintieron que el Neural Engine es silicio desperdiciado
- Se podrían añadir más núcleos de GPU y cambiar las APIs de procesamiento neuronal a la GPU según sea necesario
- Les gustaría aprender si hay una opinión distinta
La principal ventaja es que el consumo de energía es mucho menor
- En benchmarks con M1 Max y M4 Pro, la GPU es más rápida pero consume mucha más energía
- Los modelos ANE están limitados a 512 tokens, así que todavía es difícil usarlos en producción
En el README falta la información más importante
- Quieren saber cuántos tokens/segundo se pueden lograr comparado con llama.cpp / MLX con la misma cuantización
- Solo valdría la pena cambiar de plataforma base si hubiera mejoras importantes
Intentan averiguar cuál es el secreto de esta tecnología
- Se preguntan si la clave es depender de coremltools o si hay alguna otra técnica importante
La memoria unificada de Apple proporciona suficiente RAM para ejecutar modelos grandes que requieren varias GPU
Se preguntan si coreml aprovecha ANE
- Quieren saber si en coreml hay cuellos de botella que requieren acceso de bajo nivel
Se preguntan si hay ventajas de rendimiento en velocidad de inferencia en MacBook con chips serie M
- Quieren saber si el objetivo principal es hacer que la inferencia funcione en otras plataformas (como iOS)
- Si hay ventajas de rendimiento, les gustaría ver una comparación de tokens/segundo con Ollama
Sorprende el control estricto de Apple sobre ANE
- Esperan que llegue el día en que la gente realmente pueda usarlo
- Se preguntan si las empresas esconden la tecnología para mantener el control, o si realmente hay una gran razón técnica detrás de ello

ANEMLL - proyecto de código abierto para ejecutar LLM en Apple Neural Engine

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News