- Framework multiplataforma que permite ejecutar directamente modelos GGUF en varios dispositivos (smartphones, laptops, TV, cámaras, etc.)
- Compatible con cualquier modelo GGUF disponible en Huggingface; Qwen, Gemma, Llama, DeepSeek, etc.
- Despliegue y ejecución directa de modelos LLM/VLM/TTS dentro de la app
- Compatible con Flutter, React-Native y Kotlin Multiplatform, y permite ejecutar en el dispositivo distintos tipos de modelos como texto, visión, embeddings y TTS
- Soporta desde FP32 hasta modelos cuantizados de 2 bits, lo que permite alta eficiencia y bajo consumo energético en entornos móviles
- Soporta plantillas de chat (Jinja2), streaming de tokens, fallback automático nube-local, Speech-To-Text, etc.
- El backend de Cactus está escrito en C/C++, por lo que puede funcionar directamente en casi cualquier entorno, como móvil, PC, embebido e IoT
- En smartphones recientes, Gemma3 1B Q4 funciona a 20~50 tokens/seg, y Qwen3 4B Q4 a 7~18 tokens/seg
- Se pueden descargar modelos recomendados desde HuggingFace Cactus-Compute
Puntos de uso y ventajas
- A diferencia de los frameworks LLM on-device existentes, integra soporte para múltiples plataformas, lo que facilita implementar una arquitectura híbrida local-nube
- Permite usar los LLM/VLM/TTS más recientes en dispositivos móviles con alto rendimiento y bajo consumo energético
- Adecuado para diversos escenarios B2C/B2B, como procesamiento de datos privados dentro de apps/servicios, uso de IA offline y reducción de costos
Aún no hay comentarios.