- El artículo presenta Petals, una nueva tecnología que permite a los usuarios ejecutar modelos de lenguaje grandes (LLMs) en casa de una manera similar a BitTorrent.
- Petals es compatible con varios LLMs y sus derivados, incluyendo Llama 2 (70B), Falcon (180B) y BLOOM (176B).
- Esta tecnología funciona cargando una parte del modelo en el dispositivo del usuario y luego conectándolo a una red de otros usuarios que proporcionan las partes restantes.
- Ofrece una velocidad de inferencia de lote único de 6 tokens/segundo para Llama 2 y 4 tokens/segundo para Falcon. Esta velocidad es suficiente para chatbots y aplicaciones interactivas.
- Petals va más allá de la API clásica de LLM al permitir que los usuarios usen cualquier método de ajuste fino y muestreo, ejecuten rutas personalizadas a través del modelo o vean los estados ocultos.
- Petals combina la flexibilidad de PyTorch y 🤗 Transformers con la comodidad de una API.
- Los usuarios pueden probar Petals en Google Colab y consultar la documentación en GitHub.
- El artículo enumera a los principales contribuidores del proyecto y proporciona un enlace para aportar GPU.
- Los usuarios pueden seguir el desarrollo de Petals a través de Discord o una suscripción por correo electrónico.
- Este proyecto forma parte del taller de investigación BigScience.
1 comentarios
Opiniones de Hacker News