2 puntos por GN⁺ 2023-09-18 | 1 comentarios | Compartir por WhatsApp
  • El artículo presenta Petals, una nueva tecnología que permite a los usuarios ejecutar modelos de lenguaje grandes (LLMs) en casa de una manera similar a BitTorrent.
  • Petals es compatible con varios LLMs y sus derivados, incluyendo Llama 2 (70B), Falcon (180B) y BLOOM (176B).
  • Esta tecnología funciona cargando una parte del modelo en el dispositivo del usuario y luego conectándolo a una red de otros usuarios que proporcionan las partes restantes.
  • Ofrece una velocidad de inferencia de lote único de 6 tokens/segundo para Llama 2 y 4 tokens/segundo para Falcon. Esta velocidad es suficiente para chatbots y aplicaciones interactivas.
  • Petals va más allá de la API clásica de LLM al permitir que los usuarios usen cualquier método de ajuste fino y muestreo, ejecuten rutas personalizadas a través del modelo o vean los estados ocultos.
  • Petals combina la flexibilidad de PyTorch y 🤗 Transformers con la comodidad de una API.
  • Los usuarios pueden probar Petals en Google Colab y consultar la documentación en GitHub.
  • El artículo enumera a los principales contribuidores del proyecto y proporciona un enlace para aportar GPU.
  • Los usuarios pueden seguir el desarrollo de Petals a través de Discord o una suscripción por correo electrónico.
  • Este proyecto forma parte del taller de investigación BigScience.

1 comentarios

 
GN⁺ 2023-09-18
Opiniones de Hacker News
  • Un artículo sobre una nueva forma de ejecutar modelos de lenguaje grandes (LLMs) en casa de una manera similar a BitTorrent
  • Los pesos del modelo se dividen en capas entre varias máquinas, que colaboran para realizar inferencia o ajuste fino
  • Se está desarrollando un proyecto llamado Ollama, que aloja los pesos del modelo en un registro de Docker para garantizar que siempre se descarguen los pesos correctos
  • Gracias al uso de cuantización/QLORA, los modelos grandes pueden ejecutarse a velocidades aceptables en hardware de consumo, evitando la latencia causada por el paralelismo entre distintos servidores
  • El ajuste fino de modelos grandes como 70B es desafiante y requiere recursos costosos; se propone una contribución colectiva tipo "llama training horde"
  • Hay preocupación por la vulnerabilidad del sistema, ya que participantes maliciosos podrían alterar las salidas o devolver resultados basura para sabotearlo
  • Petals, que forma parte del proyecto, permite a los usuarios compartir GPU y contribuir con código, ofreciendo una experiencia de programación más general
  • El sistema puede proporcionar cierta cantidad de tokens distribuidos, lo que podría beneficiar a usuarios con dispositivos de baja potencia
  • El proyecto parece un potencial cambio de juego y podría hacer este campo más accesible para más desarrolladores
  • Petals opera un sistema centralizado de incentivos similar a los kudos de AI Horde, aunque en otros aspectos es un sistema distribuido. Los incentivos no pueden cambiarse por dinero y están pensados para usarse dentro del sistema
  • Algunos usuarios experimentan problemas con las versiones de dependencias al intentar compartir GPU
  • Se propone usar "tokens" para los ciclos de GPU, junto con la idea de seguir al sol para maximizar el uso de la energía solar fotovoltaica