- Gracias a LLaMA.cpp, que reescribe el código de inferencia de LLaMA en C++ puro, puede ejecutarse en hardware diverso como Pixel 5, MacBook Pro con M2 y Raspberry Pi
- Los modelos grandes normalmente requieren GPUs costosas, así que ¿cómo es posible esto?
- Las GPUs son favorables para deep learning por su gran ancho de banda de memoria y capacidad de cómputo, pero el ancho de banda de memoria suele ser el cuello de botella en la inferencia
- Esto se debe a que, para el cálculo real, los datos deben moverse desde la memoria HBM (RAM) hacia la memoria on-chip
- La cuantización es importante en el uso de RAM para los pesos de LLaMA
- Si se reduce la precisión, se puede disminuir drásticamente la cantidad de memoria necesaria para almacenar el modelo
- Mediante la cuantización, se reduce la memoria necesaria para almacenar el modelo, lo que permite que quepa en la memoria de GPUs estándar de centros de datos y GPUs de consumo de gama alta
- El ancho de banda de memoria es el factor limitante en casi todas las tareas relacionadas con el muestreo de transformers
- Si se reducen los requisitos de memoria con métodos como la cuantización, el servicio del modelo se vuelve mucho más fácil
- Esta es otra razón para la destilación o para "entrenar modelos más pequeños durante más tiempo"
3 comentarios
Probé una prueba de embeddings cargando
llama2con LlamaCpp en una máquina local.https://breezymind.com/llamacpp-embedding
El primer comentario de HN es útil.
Comentarios de Hacker News