Petals - Ejecuta modelos de lenguaje de más de 100B en casa al estilo BitTorrent

xguru · 2023-01-03T10:56:19+09:00

Ejecuta "de forma colaborativa" modelos de lenguaje ultragrandes como BLOOM-176B Conecta tu GPU a Petals Cada persona carga una parte del modelo y ejecuta inferencia y ajuste fino junto con otras La inferencia tarda alrededor de 1 segundo por paso (token), 10 veces más rápido que el offloading, suficiente para chatbots y otras apps interactivas La inferencia en paralelo puede alcanzar cientos de tokens por segundo Están trabajando en introducir incentivos explícitos (Bloom Points) para quienes aporten tiempo de GPU

Ejecuta "de forma colaborativa" modelos de lenguaje ultragrandes como BLOOM-176B
- Conecta tu GPU a Petals
- Cada persona carga una parte del modelo y ejecuta inferencia y ajuste fino junto con otras
La inferencia tarda alrededor de 1 segundo por paso (token), 10 veces más rápido que el offloading, suficiente para chatbots y otras apps interactivas
- La inferencia en paralelo puede alcanzar cientos de tokens por segundo
Están trabajando en introducir incentivos explícitos (Bloom Points) para quienes aporten tiempo de GPU

3 comentarios

won9497 2023-01-03

¡bien!

won9497 2023-01-03

Eh, este no es el artículo...

xguru 2023-01-03

Dicen que incluso la versión mucho más pequeña, BLOOM-7B, si la corres directamente en local, tarda unos 90 segundos en un Ryzen (16 núcleos) + 32 GB de RAM.
Si realmente funciona tan bien como afirman, estaría bastante bueno... aunque me da cierta vibra de blockchain...
(Según el desarrollador, no usan blockchain)

Petals - Ejecuta modelos de lenguaje de más de 100B en casa al estilo BitTorrent

Lecturas relacionadas

3 comentarios