3 puntos por GN⁺ 2023-09-14 | 1 comentarios | Compartir por WhatsApp
  • Biblioteca de inferencia diseñada para ejecutar LLM locales en GPUs como la 3090/4090
  • Es una versión inicial y el código todavía está en fase de prueba; algunas funciones importantes aún no están implementadas
  • En comparación con V1, ExLlamaV2 es más rápido y ofrece mejores kernels, una base de código más limpia y variada, y compatibilidad con nuevos formatos de cuantización
  • Depende de la extensión Torch C++ para funciones CUDA, que se compila en tiempo de ejecución. La primera vez que se usa la biblioteca tarda entre 10 y 20 segundos, pero la extensión queda en caché para usos posteriores
  • Soporta los mismos modelos GPTQ de 4 bits que V1, pero también el nuevo formato "EXL2", que permite mezclar niveles de cuantización dentro del modelo para lograr una tasa de bits promedio de entre 2 y 8 bits
  • La selección de parámetros para la cuantización se realiza automáticamente, y se proporciona un script para cuantizar el modelo
  • También se menciona que algunos modelos cuantizados con EXL2 ya fueron subidos a HuggingFace para que los usuarios puedan experimentar con ellos
  • Los planes futuros incluyen un paquete PyPi con extensiones precompiladas, soporte para LoRA, una Web UI de ejemplo, un servidor web y más samplers

1 comentarios

 
GN⁺ 2023-09-14
Opiniones de Hacker News
  • El artículo analiza Exllamav2, una nueva biblioteca de inferencia que permite ejecutar modelos de lenguaje (LLMs) en GPUs de consumo.
  • Este podría ser el primer momento en que los LLMs grandes pueden ejecutarse en GPUs de consumo a velocidades competitivas, con potencial para superar a GPT-3.5-turbo o GPT-4.
  • La biblioteca usa una forma única de cuantizar distintas capas o módulos para minimizar la perplejidad mientras ajusta los parámetros.
  • Hay interés en comparar el rendimiento de distintas GPUs, como la 3090 y la 4090, y en cómo manejan diferentes modelos.
  • El artículo también menciona la incorporación de soporte ROCm en una etapa temprana, lo que despierta curiosidad sobre cómo se compararán las RTX4090/3090 con la serie 7900.
  • A los lectores les interesan las comparaciones de velocidad y cómo funcionan los modelos grandes en hardware de gama alta, como las tarjetas Nvidia de primer nivel.
  • Hay preguntas sobre el rendimiento de modelos que requieren varias tarjetas para ejecutarse en memoria.
  • El artículo también provocó debate sobre el lanzamiento en el subreddit "Local LLaMA".
  • Los lectores sienten curiosidad por el efecto de reducir los modelos a un solo ancho de bits y si siguen siendo funcionales o empiezan a producir disparates.
  • Hay preguntas sobre el costo y los benchmarks de perplejidad de ELX2, así como algunas quejas porque Facebook hizo llama v2 de 70B en lugar de 65B.
  • Los lectores buscan más información sobre la cuantización EXL2/GPTQ, que parece ser la causa principal de la mejora de velocidad en este modelo.
  • Se hacen comparaciones entre "70B Llama 2" y ChatGPT 3.5/4.0, con preguntas sobre su rendimiento relativo.