vLLM: servicio de LLM fácil, rápido y económico con PagedAttention

xguru · 2023-06-23T10:32:02+09:00

Biblioteca de código abierto para inferencia y servicio de LLM rápidos Gestiona de forma eficiente las claves/valores de atención con el algoritmo PagedAttention 24 veces más rendimiento que HuggingFace Transformers sin cambios en la arquitectura del modelo Permite almacenar claves/valores contiguos en espacios de memoria no contiguos Ya se usa con éxito en LMSYS Vicuna y Chatbot Arena

(vllm.ai)

8 puntos por xguru 2023-06-23 | Aún no hay comentarios. | Compartir por WhatsApp

Biblioteca de código abierto para inferencia y servicio de LLM rápidos
Gestiona de forma eficiente las claves/valores de atención con el algoritmo PagedAttention
- 24 veces más rendimiento que HuggingFace Transformers sin cambios en la arquitectura del modelo
- Permite almacenar claves/valores contiguos en espacios de memoria no contiguos
Ya se usa con éxito en LMSYS Vicuna y Chatbot Arena

vLLM: servicio de LLM fácil, rápido y económico con PagedAttention

Lecturas relacionadas

Aún no hay comentarios.