- Un resumen de los números importantes al usar LLM.
- Si pones "sé conciso" en el prompt, puedes ahorrar entre 40% y 90% del costo.
- Comparado con GPT-4, GPT-3.5 Turbo es 50 veces más barato.
- Si usas embeddings de OpenAI para búsqueda vectorial, resulta 20 veces más barato que GPT-3.5 Turbo.
- Entrenar un LLM de la categoría de LLaMa cuesta un millón de dólares (aprox. 1.3 mil millones de wones).
- Tamaño de memoria por GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
- Normalmente se necesita el doble de memoria que el tamaño del modelo - 7B = 14GB
- Los modelos de embeddings normalmente usan menos de 1GB de memoria
- Si procesas solicitudes de LLM por lotes, puede ser más de 10 veces más rápido.
- Un modelo de 13B requiere alrededor de 1MB por token, por lo que al procesar solicitudes por lotes el requerimiento de memoria aumenta mucho.
2 comentarios
He probado mucho hacer las cosas más cortas, pero creo que también debería probar poner en el texto eso de "be consise".
También habrá que intentar combinarlo con
let's think step by step.