8 puntos por xguru 2023-06-23 | Aún no hay comentarios. | Compartir por WhatsApp
  • Biblioteca de código abierto para inferencia y servicio de LLM rápidos
  • Gestiona de forma eficiente las claves/valores de atención con el algoritmo PagedAttention
    • 24 veces más rendimiento que HuggingFace Transformers sin cambios en la arquitectura del modelo
    • Permite almacenar claves/valores contiguos en espacios de memoria no contiguos
  • Ya se usa con éxito en LMSYS Vicuna y Chatbot Arena

Aún no hay comentarios.

Aún no hay comentarios.