7 puntos por xguru 2023-09-07 | 1 comentarios | Compartir por WhatsApp
  • El modelo de lenguaje abierto más grande, con 180 mil millones de parámetros
  • Entre los modelos abiertos, ocupa el puesto #1 en el leaderboard. Supera a Llama 2 70B y GPT-3.5, y compite con PaLM-2
  • Entrenado con 3.5T tokens usando el conjunto de datos RefinedWeb de TII (principalmente en inglés)
    • Es 2.5 veces más grande que Llama 2 y fue entrenado con más de 4 veces la potencia de cómputo (usando 4096 GPU con Amazon SageMaker)
  • Falcon 180B puede usarse comercialmente, pero solo bajo condiciones muy restringidas, excluyendo el "uso alojado". Es indispensable revisar la licencia
  • Requisitos de hardware
    • Fine-tuning completo: memoria 5120GB, 8x 8x A100 80GB
    • LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
    • QLoRA: 160GB, 2x A100 80GB
    • Inferencia BF16/FP16: 640GB, 8x A100 80GB
    • Inferencia GPTQ/int4: 320GB, 8x A100 40GB

1 comentarios

 
kuroneko 2023-09-07

El tamaño es enorme. También lo son los requisitos de hardware...