- Ejecuta casi todos los modelos de lenguaje grandes de código abierto usando vLLM y un programador de GPU con autoescalado hecho por ellos mismos
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, etc.
- Funciona con solo pegar un enlace de repositorio de Hugging Face, sin configuración especial: todos los repos full-weight y 4-bit AWQ
- Se pueden usar hasta 8 GPU Nvidia A100 de 80Gb
- Durante la beta se ofrece gratis. Incluso cuando termine la beta, funcionará como multi-tenant, así que tendrá mejor precio que las principales GPU en la nube
2 comentarios
Me preguntaba cómo probar
llama 405b, pero es rápido y la calidad también es buena.vLLM: Servicio de LLM fácil, rápido y económico usando PagedAttention