5 puntos por xguru 2024-07-29 | 2 comentarios | Compartir por WhatsApp
  • Ejecuta casi todos los modelos de lenguaje grandes de código abierto usando vLLM y un programador de GPU con autoescalado hecho por ellos mismos
    • Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, etc.
  • Funciona con solo pegar un enlace de repositorio de Hugging Face, sin configuración especial: todos los repos full-weight y 4-bit AWQ
  • Se pueden usar hasta 8 GPU Nvidia A100 de 80Gb
  • Durante la beta se ofrece gratis. Incluso cuando termine la beta, funcionará como multi-tenant, así que tendrá mejor precio que las principales GPU en la nube

2 comentarios

 
wedding 2024-07-30

Me preguntaba cómo probar llama 405b, pero es rápido y la calidad también es buena.