Costo de autoalojar el modelo Llama-3 8B-Instruct
(blog.lytix.co)- ¿Cuánto cuesta alojar directamente un modelo de lenguaje grande (LLM)?
- Si se aloja el modelo Llama-3 8B-Instruct en EKS, cuesta alrededor de $17 por cada millón de tokens
- Si se usa ChatGPT para la misma tarea, cuesta $1 por cada millón de tokens
- Si se autoalojan los equipos, el costo por millón de tokens baja a menos de $0.01 y se tarda unos 5.5 años en llegar al punto de equilibrio
- Cálculo basado en 4x GPU NVidia Tesla T4 y otros costos de hardware ($3800) + costo mensual (electricidad y otros) de $100
Proceso para determinar el hardware óptimo
-
Entorno de prueba: todas las pruebas se ejecutaron en un clúster de EKS
-
Primer intento: instancia AWS
g4dn.2xlargecon GPU Nvidia Tesla T4.- Especificaciones: 1 NVidia Tesla T4, 32GB de memoria, 8 vCPUs.
- Resultado: no fue posible ejecutar la versión de 8B ni la de 70B parámetros de Llama 3.
- Problema: se produjo OOM (Out of Memory) y el tiempo de respuesta fue de unos 10 minutos.
-
Segundo intento: instancia AWS
g4dn.16xlargecon 4 GPU Nvidia Tesla T4.- Especificaciones: 4 NVidia Tesla T4, 192GB de memoria, 48 vCPUs.
- Resultado: el tiempo de respuesta se redujo a menos de 10 segundos.
Implementación inicial
- Método de implementación: se copió y usó el código de Llama-3 de Hugging Face.
- Cálculo de costos:
- Costo de usar una instancia
g5dn.12xlarge: $3.912 por hora. - Al calcular el costo mensual, el costo fue de aproximadamente $167.17 por cada millón de tokens.
- Costo de ChatGPT 3.5 Turbo: $1 por cada millón de tokens.
- Costo de usar una instancia
Solución del problema
- Identificación del problema: se descubrió que el método anterior era incorrecto y se usó
vLLM. - Resultado de la mejora:
- Se instalaron
rayyvllmpara alojar el servidor de API. - Con la opción
—tensor-parallel-size 4se usaron las 4 GPU. - Resultado: el tiempo de respuesta mejoró de forma importante hasta 2044ms.
- Al calcular los costos, el costo fue de aproximadamente $17 por cada millón de tokens.
- Se instalaron
Enfoque alternativo
- Alojamiento en hardware propio:
- Hardware necesario: 4x GPU NVidia Tesla T4, alrededor de $700 en eBay.
- Incluyendo otros costos, el costo total de instalación es de unos $3,800.
- Costo mensual de energía: alrededor de $50.
- El costo mensual total se calcula en unos $100.
- Se tarda unos 66 meses (5.5 años) en llegar al punto de equilibrio.
Conclusión
- Ventaja: alojar en hardware propio puede reducir costos.
- Desventaja: requiere administrar el hardware y escalarlo
- Como asumir una utilización del 100% no es realista, es necesario evaluar según la situación real.
4 comentarios
No se trata de montar el modelo,
sino de hacer solo inferencia con Llama 8B, así que el equipo es excesivo.
Con una GPU de 24 GB (3090 o 4090) es suficiente (2~3 millones), y con una factura de electricidad mensual de unos 30 mil won también alcanza.
Ahora que lo escribo, veo que ya está mencionado abajo jaja
5.5 años sí que es bastante..
¿Con 8B se puede lograr algo más que nivel juguete?
Opiniones en Hacker News