MosaicML publica el modelo MPT-7B-8K

xguru · 2023-07-21T10:02:02+09:00

LLM open source de 7B parámetros con soporte para longitud de contexto de 8k Entrenado durante 3 días en 256 NVidia H100 usando adicionalmente 500B tokens de datos sobre MPT-7B Se publican 3 modelos: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat Puede usarse con fines comerciales Soporta entrada de 8k con ALiBi (Attention with Linear Biases Enables Input Length Extrapolation) Entrenamiento e inferencia rápidos con FlashAttention y FasterTrasformer

(mosaicml.com)

9 puntos por xguru 2023-07-21 | Aún no hay comentarios. | Compartir por WhatsApp

LLM open source de 7B parámetros con soporte para longitud de contexto de 8k
Entrenado durante 3 días en 256 NVidia H100 usando adicionalmente 500B tokens de datos sobre MPT-7B
Se publican 3 modelos: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
Puede usarse con fines comerciales
Soporta entrada de 8k con ALiBi (Attention with Linear Biases Enables Input Length Extrapolation)
Entrenamiento e inferencia rápidos con FlashAttention y FasterTrasformer

MosaicML publica el modelo MPT-7B-8K

Lecturas relacionadas

Aún no hay comentarios.