- Proporciona una API de streaming compatible con OpenAI para modelos de generación de texto basados en Hugging Face Transformer
- Permite usar otros LLM de forma similar al servicio de OpenAI
- Permite generación en streaming con diversas estrategias de decodificación
- Compatible tanto con modelos solo decodificador como con modelos codificador-decodificador
- Detokenizer compatible con surrogates y whitespace
- Opción de quantization disponible. Soporte para múltiples GPU
- Muestra el progreso en tiempo real mediante SSE (Server-Sent Events)
Aún no hay comentarios.