- Olvídate de las costosas GPU de NVIDIA y aprovecha equipos que ya tienes, como iPhone, iPad, Android, Mac y Linux, agrupándolos como una sola GPU potente
- Compatible con LLaMA y varios otros modelos
- Con "particionamiento dinámico de modelos", divide el modelo de forma óptima según la topología actual de la red y los recursos disponibles de los dispositivos
- Permite ejecutar modelos más grandes de los que podrían correr en un solo dispositivo
- Encuentra otros equipos mediante descubrimiento automático de dispositivos
- Ofrece una API compatible con ChatGPT
- Cada dispositivo se conecta en modo p2p, no con una estructura Master-Worker (la estrategia de partición predeterminada es ring memory weighted partitioning)
- Compatibilidad con motores de inferencia:
- ✅ MLX
- ✅ tinygrad
- 🚧 llama.cpp
- Compatibilidad con módulos de red:
- ✅ GRPC
- 🚧 Radio
- 🚧 Bluetooth
- Problemas conocidos
- Como la librería evoluciona rápidamente, la implementación de iOS va rezagada frente a Python
- A largo plazo, planean impulsar un enfoque unificado para evitar tener que mantener implementaciones separadas
Resumen de GN⁺
- exo es un software experimental que puede integrar varios dispositivos en un solo clúster de IA potente
- Ofrece varias funciones, como descubrimiento automático de dispositivos y particionamiento dinámico de modelos, para ejecutar modelos más grandes que en un solo dispositivo
- Proporciona una API compatible con ChatGPT para ejecutar modelos fácilmente
- Están impulsando un enfoque unificado para resolver el problema del rezago de la implementación en iOS
1 comentarios
Opiniones de Hacker News
mlx, una biblioteca exclusiva para Apple Silicon. Dice que funciona en "iPhone, iPad, Android, Mac, Linux, pretty much any device", pero dudo que realmente lo hayan probadopaddlerde GitHub en Windows para balanceo de carga entre dos dispositivos. Sería útil para ejecutar Llama 400B en varios dispositivos. Pero todavía no hay soporte para Windows