- Ejecuta "de forma colaborativa" modelos de lenguaje ultragrandes como BLOOM-176B
- Conecta tu GPU a Petals
- Cada persona carga una parte del modelo y ejecuta inferencia y ajuste fino junto con otras
- La inferencia tarda alrededor de 1 segundo por paso (token), 10 veces más rápido que el offloading, suficiente para chatbots y otras apps interactivas
- La inferencia en paralelo puede alcanzar cientos de tokens por segundo
- Están trabajando en introducir incentivos explícitos (Bloom Points) para quienes aporten tiempo de GPU
3 comentarios
¡bien!
Eh, este no es el artículo...
Dicen que incluso la versión mucho más pequeña, BLOOM-7B, si la corres directamente en local, tarda unos 90 segundos en un Ryzen (16 núcleos) + 32 GB de RAM.
Si realmente funciona tan bien como afirman, estaría bastante bueno... aunque me da cierta vibra de blockchain...
(Según el desarrollador, no usan blockchain)