- Se puede ejecutar inferencia con un pequeño modelo Llama 2 en C puro.
- Este código permite entrenar la arquitectura LLM de Llama 2 en PyTorch y guardar los pesos como archivos binarios sin procesar.
- Luego, los pesos se pueden cargar en un archivo C.
- El archivo C puede ejecutar modelos de tamaño considerable a gran velocidad.
- Este proyecto fue hecho como un proyecto de fin de semana y no es una librería para producción.
- Se pueden descargar modelos preentrenados y ejecutarlos en C.
- El código en C hace streaming de tokens sin procesar, y se pueden convertir a texto con un wrapper simple.
- El código en C corre a alrededor de 100 tokens/segundo en una M1 MacBook Air.
- La salida del código en C es texto generado a partir del modelo.
- Este proyecto se enfoca en una aplicación específica y entrena la misma arquitectura desde cero.
- Se puede descargar el dataset fuente, pretokenizarlo y luego entrenar el modelo.
- Se pueden ajustar los hiperparámetros para crear un mejor modelo.
- También se puede ejecutar un script de inferencia en PyTorch para comparar.
- Se pueden realizar pruebas detalladas usando el script de prueba proporcionado.
- Este proyecto requiere los archivos
model.bin y model.ckpt desde el entrenamiento en PyTorch.
- En el texto se mencionan algunas tareas pendientes y preguntas.
- Este proyecto se ofrece bajo la licencia MIT.
1 comentarios
Comentarios de Hacker News