- Motor de inferencia basado en Rust para ejecutar modelos de IA rápidamente en entornos Apple Silicon
- Arquitectura híbrida que aprovecha de forma selectiva kernels de GPU o MPSGraph por debajo de CoreML
- Usa modelos en un formato propio, y permite convertir y utilizar varios modelos como Llama3 mediante la herramienta lalamo
- Supera en velocidad a llama.cpp en la mayoría de los casos y, en particular, registró una velocidad de procesamiento 13 veces mayor en Qwen3-0.6B
- Permite desarrollo e integración flexibles mediante bindings para Swift, interfaz CLI y API de Rust
- Asegura confiabilidad y escalabilidad con una configuración modular, el aprovechamiento de la memoria unificada de los dispositivos Apple y rutas de inferencia verificables en rendimiento
Aún no hay comentarios.