Los números que todo desarrollador de LLM debe conocer

kuroneko · 2023-05-18T10:45:09+09:00

Un resumen de los números importantes al usar LLM. Si pones "sé conciso" en el prompt, puedes ahorrar entre 40% y 90% del costo. Comparado con GPT-4, GPT-3.5 Turbo es 50 veces más barato. Si usas embeddings de OpenAI para búsqueda vectorial, resulta 20 veces más barato que GPT-3.5 Turbo. Entrenar un LLM de la categoría de LLaMa cuesta un millón de dólares (aprox. 1.3 mil millones de wones). Tamaño de memoria por GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB Normalmente se necesita el doble de memoria que el tamaño del modelo - 7B = 14GB Los modelos de embeddings normalmente usan menos de 1GB de memoria Si procesas solicitudes de LLM por lotes, puede ser más de 10 veces más rápido. Un modelo de 13B requiere alrededor de 1MB por token, por lo que al procesar solicitudes por lotes el requerimiento de memoria aumenta mucho.

(github.com/ray-project)

42 puntos por kuroneko 2023-05-18 | 2 comentarios | Compartir por WhatsApp

Un resumen de los números importantes al usar LLM.
Si pones "sé conciso" en el prompt, puedes ahorrar entre 40% y 90% del costo.
Comparado con GPT-4, GPT-3.5 Turbo es 50 veces más barato.
Si usas embeddings de OpenAI para búsqueda vectorial, resulta 20 veces más barato que GPT-3.5 Turbo.
Entrenar un LLM de la categoría de LLaMa cuesta un millón de dólares (aprox. 1.3 mil millones de wones).
Tamaño de memoria por GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
Normalmente se necesita el doble de memoria que el tamaño del modelo - 7B = 14GB
Los modelos de embeddings normalmente usan menos de 1GB de memoria
Si procesas solicitudes de LLM por lotes, puede ser más de 10 veces más rápido.
Un modelo de 13B requiere alrededor de 1MB por token, por lo que al procesar solicitudes por lotes el requerimiento de memoria aumenta mucho.

2 comentarios

xguru 2023-05-18

He probado mucho hacer las cosas más cortas, pero creo que también debería probar poner en el texto eso de "be consise".

wedding 2023-05-20

También habrá que intentar combinarlo con let's think step by step.

Los números que todo desarrollador de LLM debe conocer

Lecturas relacionadas

2 comentarios