Presentación del modelo Falcon 180B

xguru · 2023-09-07T10:31:01+09:00

El modelo de lenguaje abierto más grande, con 180 mil millones de parámetros Entre los modelos abiertos, ocupa el puesto #1 en el leaderboard. Supera a Llama 2 70B y GPT-3.5, y compite con PaLM-2 Entrenado con 3.5T tokens usando el conjunto de datos RefinedWeb de TII (principalmente en inglés) Es 2.5 veces más grande que Llama 2 y fue entrenado con más de 4 veces la potencia de cómputo (usando 4096 GPU con Amazon SageMaker) Falcon 180B puede usarse comercialmente, pero solo bajo condiciones muy restringidas, excluyendo el "uso alojado". Es indispensable revisar la licencia Requisitos de hardware Fine-tuning completo: memoria 5120GB, 8x 8x A100 80GB LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB QLoRA: 160GB, 2x A100 80GB Inferencia BF16/FP16: 640GB, 8x A100 80GB Inferencia GPTQ/int4: 320GB, 8x A100 40GB

(huggingface.co)

7 puntos por xguru 2023-09-07 | 1 comentarios | Compartir por WhatsApp

El modelo de lenguaje abierto más grande, con 180 mil millones de parámetros
Entre los modelos abiertos, ocupa el puesto #1 en el leaderboard. Supera a Llama 2 70B y GPT-3.5, y compite con PaLM-2
Entrenado con 3.5T tokens usando el conjunto de datos RefinedWeb de TII (principalmente en inglés)
- Es 2.5 veces más grande que Llama 2 y fue entrenado con más de 4 veces la potencia de cómputo (usando 4096 GPU con Amazon SageMaker)
Falcon 180B puede usarse comercialmente, pero solo bajo condiciones muy restringidas, excluyendo el "uso alojado". Es indispensable revisar la licencia
Requisitos de hardware
- Fine-tuning completo: memoria 5120GB, 8x 8x A100 80GB
- LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- Inferencia BF16/FP16: 640GB, 8x A100 80GB
- Inferencia GPTQ/int4: 320GB, 8x A100 40GB

1 comentarios

kuroneko 2023-09-07

El tamaño es enorme. También lo son los requisitos de hardware...

Presentación del modelo Falcon 180B

Lecturas relacionadas

1 comentarios