Cactus - Ollama para smartphones

(github.com/cactus-compute)

22 puntos por xguru 2025-08-05 | Aún no hay comentarios. | Compartir por WhatsApp

Framework multiplataforma que permite ejecutar directamente modelos GGUF en varios dispositivos (smartphones, laptops, TV, cámaras, etc.)
- Compatible con cualquier modelo GGUF disponible en Huggingface; Qwen, Gemma, Llama, DeepSeek, etc.
- Despliegue y ejecución directa de modelos LLM/VLM/TTS dentro de la app
Compatible con Flutter, React-Native y Kotlin Multiplatform, y permite ejecutar en el dispositivo distintos tipos de modelos como texto, visión, embeddings y TTS
Soporta desde FP32 hasta modelos cuantizados de 2 bits, lo que permite alta eficiencia y bajo consumo energético en entornos móviles
Soporta plantillas de chat (Jinja2), streaming de tokens, fallback automático nube-local, Speech-To-Text, etc.
El backend de Cactus está escrito en C/C++, por lo que puede funcionar directamente en casi cualquier entorno, como móvil, PC, embebido e IoT
En smartphones recientes, Gemma3 1B Q4 funciona a 20~50 tokens/seg, y Qwen3 4B Q4 a 7~18 tokens/seg
Se pueden descargar modelos recomendados desde HuggingFace Cactus-Compute

Puntos de uso y ventajas

A diferencia de los frameworks LLM on-device existentes, integra soporte para múltiples plataformas, lo que facilita implementar una arquitectura híbrida local-nube
Permite usar los LLM/VLM/TTS más recientes en dispositivos móviles con alto rendimiento y bajo consumo energético
Adecuado para diversos escenarios B2C/B2B, como procesamiento de datos privados dentro de apps/servicios, uso de IA offline y reducción de costos