glhf - Ejecutar (casi) cualquier modelo de lenguaje

xguru · 2024-07-29T10:06:01+09:00

Ejecuta casi todos los modelos de lenguaje grandes de código abierto usando vLLM y un programador de GPU con autoescalado hecho por ellos mismos Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, etc. Funciona con solo pegar un enlace de repositorio de Hugging Face, sin configuración especial: todos los repos full-weight y 4-bit AWQ Se pueden usar hasta 8 GPU Nvidia A100 de 80Gb Durante la beta se ofrece gratis. Incluso cuando termine la beta, funcionará como multi-tenant, así que tendrá mejor precio que las principales GPU en la nube

(glhf.chat)

5 puntos por xguru 2024-07-29 | 2 comentarios | Compartir por WhatsApp

Ejecuta casi todos los modelos de lenguaje grandes de código abierto usando vLLM y un programador de GPU con autoescalado hecho por ellos mismos
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, etc.
Funciona con solo pegar un enlace de repositorio de Hugging Face, sin configuración especial: todos los repos full-weight y 4-bit AWQ
Se pueden usar hasta 8 GPU Nvidia A100 de 80Gb
Durante la beta se ofrece gratis. Incluso cuando termine la beta, funcionará como multi-tenant, así que tendrá mejor precio que las principales GPU en la nube

2 comentarios

wedding 2024-07-30

Me preguntaba cómo probar llama 405b, pero es rápido y la calidad también es buena.

xguru 2024-07-29

vLLM: Servicio de LLM fácil, rápido y económico usando PagedAttention

glhf - Ejecutar (casi) cualquier modelo de lenguaje

Lecturas relacionadas

2 comentarios