22 puntos por xguru 2025-08-05 | Aún no hay comentarios. | Compartir por WhatsApp
  • Framework multiplataforma que permite ejecutar directamente modelos GGUF en varios dispositivos (smartphones, laptops, TV, cámaras, etc.)
    • Compatible con cualquier modelo GGUF disponible en Huggingface; Qwen, Gemma, Llama, DeepSeek, etc.
    • Despliegue y ejecución directa de modelos LLM/VLM/TTS dentro de la app
  • Compatible con Flutter, React-Native y Kotlin Multiplatform, y permite ejecutar en el dispositivo distintos tipos de modelos como texto, visión, embeddings y TTS
  • Soporta desde FP32 hasta modelos cuantizados de 2 bits, lo que permite alta eficiencia y bajo consumo energético en entornos móviles
  • Soporta plantillas de chat (Jinja2), streaming de tokens, fallback automático nube-local, Speech-To-Text, etc.
  • El backend de Cactus está escrito en C/C++, por lo que puede funcionar directamente en casi cualquier entorno, como móvil, PC, embebido e IoT
  • En smartphones recientes, Gemma3 1B Q4 funciona a 20~50 tokens/seg, y Qwen3 4B Q4 a 7~18 tokens/seg
  • Se pueden descargar modelos recomendados desde HuggingFace Cactus-Compute

Puntos de uso y ventajas

  • A diferencia de los frameworks LLM on-device existentes, integra soporte para múltiples plataformas, lo que facilita implementar una arquitectura híbrida local-nube
  • Permite usar los LLM/VLM/TTS más recientes en dispositivos móviles con alto rendimiento y bajo consumo energético
  • Adecuado para diversos escenarios B2C/B2B, como procesamiento de datos privados dentro de apps/servicios, uso de IA offline y reducción de costos

Aún no hay comentarios.

Aún no hay comentarios.