- Permite usar varios LLM mediante una API REST compatible con OpenAI
- Puede funcionar incluso sin GPU. En los LLM compatibles con llama.cpp, admite aceleración por GPU
- Soporta múltiples modelos y ofrece transcripción de audio, generación de texto y generación de imágenes (Stable Diffusion)
- Una vez cargado, mantiene el modelo en memoria para ofrecer inferencia rápida
- Compatible con todos los modelos compatibles con ggml: llama, gpt4all, rwkv, whisper, vicuna, koala, gpt4all-j, cerebras, falcon, dolly, starcoder,..
Aún no hay comentarios.