1 puntos por GN⁺ 2023-07-24 | 1 comentarios | Compartir por WhatsApp
  • Se puede ejecutar inferencia con un pequeño modelo Llama 2 en C puro.
  • Este código permite entrenar la arquitectura LLM de Llama 2 en PyTorch y guardar los pesos como archivos binarios sin procesar.
  • Luego, los pesos se pueden cargar en un archivo C.
  • El archivo C puede ejecutar modelos de tamaño considerable a gran velocidad.
  • Este proyecto fue hecho como un proyecto de fin de semana y no es una librería para producción.
  • Se pueden descargar modelos preentrenados y ejecutarlos en C.
  • El código en C hace streaming de tokens sin procesar, y se pueden convertir a texto con un wrapper simple.
  • El código en C corre a alrededor de 100 tokens/segundo en una M1 MacBook Air.
  • La salida del código en C es texto generado a partir del modelo.
  • Este proyecto se enfoca en una aplicación específica y entrena la misma arquitectura desde cero.
  • Se puede descargar el dataset fuente, pretokenizarlo y luego entrenar el modelo.
  • Se pueden ajustar los hiperparámetros para crear un mejor modelo.
  • También se puede ejecutar un script de inferencia en PyTorch para comparar.
  • Se pueden realizar pruebas detalladas usando el script de prueba proporcionado.
  • Este proyecto requiere los archivos model.bin y model.ckpt desde el entrenamiento en PyTorch.
  • En el texto se mencionan algunas tareas pendientes y preguntas.
  • Este proyecto se ofrece bajo la licencia MIT.

1 comentarios

 
GN⁺ 2023-07-24
Comentarios de Hacker News
  • Andrej recibe un salario de OpenAI mientras ayuda a Apple, Facebook y al movimiento de código abierto.
  • El checkpoint original corre en una MacBook Air M1 más rápido de lo esperado.
  • Un nuevo modelo de 44M está en entrenamiento.
  • El modelo Llama corre en el navegador mediante Emscripten.
  • Los LLM locales son una tecnología interesante para construir web apps de inferencia local.
  • El código compila limpiamente con WASI SDK y corre en un runtime de Wasm.
  • Se pueden ver más detalles en el Twitter de Andrej.
  • Se discuten los requisitos de memoria necesarios para ejecutar la red neuronal.
  • Se señaló que Llama-2 no puede usarse para trabajo creativo.
  • Es posible que la industria avance hacia código fuente separado para cada modelo lanzado.
  • Se discutió el atractivo de que esté "en un solo archivo" o sea "solo headers".
  • Hay un comentario humorístico sobre crear mejores pruebas para reducir el yolo.