4 puntos por xguru 2023-01-03 | 3 comentarios | Compartir por WhatsApp
  • Ejecuta "de forma colaborativa" modelos de lenguaje ultragrandes como BLOOM-176B
    • Conecta tu GPU a Petals
    • Cada persona carga una parte del modelo y ejecuta inferencia y ajuste fino junto con otras
  • La inferencia tarda alrededor de 1 segundo por paso (token), 10 veces más rápido que el offloading, suficiente para chatbots y otras apps interactivas
    • La inferencia en paralelo puede alcanzar cientos de tokens por segundo
  • Están trabajando en introducir incentivos explícitos (Bloom Points) para quienes aporten tiempo de GPU

3 comentarios

 
won9497 2023-01-03

¡bien!

 
won9497 2023-01-03

Eh, este no es el artículo...

 
xguru 2023-01-03

Dicen que incluso la versión mucho más pequeña, BLOOM-7B, si la corres directamente en local, tarda unos 90 segundos en un Ryzen (16 núcleos) + 32 GB de RAM.
Si realmente funciona tan bien como afirman, estaría bastante bueno... aunque me da cierta vibra de blockchain...
(Según el desarrollador, no usan blockchain)