Shimmy - un servidor ligero de API de OpenAI centrado en la privacidad personal que puede reemplazar a Ollama
(github.com/Michael-A-Kuykendall)- Herramienta diseñada para ejecutar LLM completamente sin conexión en entornos locales, ofrecida como un binario único de 4.8 MB, 142 veces más pequeño que Ollama
- 100% compatible con la API de OpenAI, por lo que permite conectar sin cambios herramientas de desarrollo existentes como Python, Node.js, VSCode Copilot, Cursor y Continue.dev
- Estructura Zero-Config que funciona inmediatamente después de instalarse
- Detección automática de modelos desde Hugging Face, Ollama, directorios locales, etc.
- Compatibilidad con asignación automática de puertos y detección de adaptadores LoRA
- Función de inferencia híbrida CPU/GPU basada en MOE (Mixture of Experts) que permite ejecutar modelos grandes de más de 70B en una PC común
- Con CPU offloading y distribución inteligente de capas, funciona de forma estable incluso en entornos con poca VRAM
- Permite control detallado con las opciones
--cpu-moey--n-cpu-moe
- Soporta varios backends para aceleración por GPU, como CUDA, Vulkan, OpenCL y MLX (Apple Silicon)
- Los detecta automáticamente en tiempo de ejecución y cambia automáticamente a CPU si no hay GPU
- Arquitectura asíncrona basada en Rust + Tokio para asegurar alto rendimiento y estabilidad de memoria
- Usa el backend llama.cpp, con compatibilidad para modelos GGUF
- Incluye caché LRU, balanceo de carga automático e integración de monitoreo con Prometheus, entre otros
- Diseño centrado en la seguridad y la privacidad
- Los datos y el código no salen del entorno local
- No requiere claves API, planes de pago ni cobros por tokens
- Disponible gratis para siempre bajo licencia MIT: “FREE now, FREE forever”
5 comentarios
Lo probé en coreano, inglés, chino y japonés, pero por ahora parece que hay un problema con el procesamiento del japonés.
Si al final el backend es
llama.cpp, ¿realmente se puede llamar dependency free...?Guau, esto está realmente increíble, tengo que probarlo ahora mismo.
guau
Veo que aparecen juntos Claude y Copilot en los contributors.