Alpaca y la aceleración del desarrollo de LLM on-device

xguru · 2023-03-15T11:19:23+09:00

Los cambios en los 3 días desde el artículo "Se acerca el momento de SD" Ejecutándose con llama.cpp en una Raspberry Pi de 4 GB. 10 segundos por token Ahora se puede ejecutar fácilmente con Dalai Tras implementarlo con llama.cpp en un Pixel 6 a 26 segundos por token, se mejoró a 1 segundo por token en un Pixel 5 Stanford lanzó Alpaca, un ajuste fino de LLaMA 7B Stanford's Alpaca La gran debilidad del modelo LLaMA es la falta de "instruction tuning" para preguntas y respuestas Una de las grandes innovaciones de OpenAI fue añadir instruction tuning a GPT-3 Stanford aporta aquí 52,000 ejemplos de entrenamiento y hace posible entrenarlo por solo $100 El modelo más pequeño, 7B, ahora incluso corre en Raspberry Pi y teléfonos móviles, y produce resultados muy impresionantes Pero todavía no es para uso comercial (no es posible por 3 razones: la licencia de LLaMA / los datos del conjunto de instrucciones fueron generados con un modelo de OpenAI / no se diseñaron medidas de seguridad) ¿Qué significa esto? El modelo de licencia de LLaMA no me importa demasiado LLaMA demostró que es posible entrenar un modelo de lenguaje de clase GPT-3 con recursos generalmente disponibles llama.cpp demostró que los LLM pueden ejecutarse en hardware de consumo de alrededor de 4 GB Alpaca muestra que con 52K ejemplos y un costo de $100 también es posible hacer fine-tuning de un modelo 7B (reducido a 4 GB con cuantización de 4 bits), y obtener resultados similares al actual text-davinci-003 Aunque lo usado para la comparación fue el modelo completo 7B (13.48 GB, coma flotante de 16 bits), no el modelo de 4 GB reducido a 4 bits; todavía no he visto material que compare con claridad la diferencia de calidad entre ambos

(simonwillison.net)

11 puntos por xguru 2023-03-15 | Aún no hay comentarios. | Compartir por WhatsApp

Los cambios en los 3 días desde el artículo "Se acerca el momento de SD"
- Ejecutándose con llama.cpp en una Raspberry Pi de 4 GB. 10 segundos por token
- Ahora se puede ejecutar fácilmente con Dalai
- Tras implementarlo con llama.cpp en un Pixel 6 a 26 segundos por token, se mejoró a 1 segundo por token en un Pixel 5
- Stanford lanzó Alpaca, un ajuste fino de LLaMA 7B

Stanford's Alpaca

La gran debilidad del modelo LLaMA es la falta de "instruction tuning" para preguntas y respuestas
Una de las grandes innovaciones de OpenAI fue añadir instruction tuning a GPT-3
Stanford aporta aquí 52,000 ejemplos de entrenamiento y hace posible entrenarlo por solo $100
El modelo más pequeño, 7B, ahora incluso corre en Raspberry Pi y teléfonos móviles, y produce resultados muy impresionantes
Pero todavía no es para uso comercial (no es posible por 3 razones: la licencia de LLaMA / los datos del conjunto de instrucciones fueron generados con un modelo de OpenAI / no se diseñaron medidas de seguridad)

¿Qué significa esto?

El modelo de licencia de LLaMA no me importa demasiado
LLaMA demostró que es posible entrenar un modelo de lenguaje de clase GPT-3 con recursos generalmente disponibles
llama.cpp demostró que los LLM pueden ejecutarse en hardware de consumo de alrededor de 4 GB
Alpaca muestra que con 52K ejemplos y un costo de $100 también es posible hacer fine-tuning de un modelo 7B (reducido a 4 GB con cuantización de 4 bits), y obtener resultados similares al actual text-davinci-003
- Aunque lo usado para la comparación fue el modelo completo 7B (13.48 GB, coma flotante de 16 bits), no el modelo de 4 GB reducido a 4 bits; todavía no he visto material que compare con claridad la diferencia de calidad entre ambos

Alpaca y la aceleración del desarrollo de LLM on-device

Stanford's Alpaca

¿Qué significa esto?

Lecturas relacionadas

Aún no hay comentarios.