42 puntos por kuroneko 2023-05-18 | 2 comentarios | Compartir por WhatsApp
  • Un resumen de los números importantes al usar LLM.
  • Si pones "sé conciso" en el prompt, puedes ahorrar entre 40% y 90% del costo.
  • Comparado con GPT-4, GPT-3.5 Turbo es 50 veces más barato.
  • Si usas embeddings de OpenAI para búsqueda vectorial, resulta 20 veces más barato que GPT-3.5 Turbo.
  • Entrenar un LLM de la categoría de LLaMa cuesta un millón de dólares (aprox. 1.3 mil millones de wones).
  • Tamaño de memoria por GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
  • Normalmente se necesita el doble de memoria que el tamaño del modelo - 7B = 14GB
  • Los modelos de embeddings normalmente usan menos de 1GB de memoria
  • Si procesas solicitudes de LLM por lotes, puede ser más de 10 veces más rápido.
  • Un modelo de 13B requiere alrededor de 1MB por token, por lo que al procesar solicitudes por lotes el requerimiento de memoria aumenta mucho.

2 comentarios

 
xguru 2023-05-18

He probado mucho hacer las cosas más cortas, pero creo que también debería probar poner en el texto eso de "be consise".

 
wedding 2023-05-20

También habrá que intentar combinarlo con let's think step by step.