- El modelo de lenguaje abierto más grande, con 180 mil millones de parámetros
- Entre los modelos abiertos, ocupa el puesto #1 en el leaderboard. Supera a Llama 2 70B y GPT-3.5, y compite con PaLM-2
- Entrenado con 3.5T tokens usando el conjunto de datos RefinedWeb de TII (principalmente en inglés)
- Es 2.5 veces más grande que Llama 2 y fue entrenado con más de 4 veces la potencia de cómputo (usando 4096 GPU con Amazon SageMaker)
- Falcon 180B puede usarse comercialmente, pero solo bajo condiciones muy restringidas, excluyendo el "uso alojado". Es indispensable revisar la licencia
- Requisitos de hardware
- Fine-tuning completo: memoria 5120GB, 8x 8x A100 80GB
- LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- Inferencia BF16/FP16: 640GB, 8x A100 80GB
- Inferencia GPTQ/int4: 320GB, 8x A100 40GB
1 comentarios
El tamaño es enorme. También lo son los requisitos de hardware...