16 puntos por xguru 2023-03-13 | 1 comentarios | Compartir por WhatsApp
  • Apunta a ejecutar el modelo LLaMA con cuantización de 4 bits en una MacBook
  • Implementación en C/C++ puro sin dependencias
  • Optimizado para el framework Arm Neon/Accelerate (Apple Silicon)
  • Soporte de AVX2 para x86
  • Precisión mixta F16/F32
  • Soporte para cuantización de 4 bits
  • Se ejecuta en CPU
  • Por ahora solo es compatible con Mac/Linux. Soporte para Windows próximamente

1 comentarios

 
laeyoung 2023-03-14

Probé ejecutar el modelo 7B y funciona mejor de lo que esperaba.