- Biblioteca de código abierto para inferencia y servicio de LLM rápidos
- Gestiona de forma eficiente las claves/valores de atención con el algoritmo PagedAttention
- 24 veces más rendimiento que HuggingFace Transformers sin cambios en la arquitectura del modelo
- Permite almacenar claves/valores contiguos en espacios de memoria no contiguos
- Ya se usa con éxito en LMSYS Vicuna y Chatbot Arena
Aún no hay comentarios.