MosaicML publica el modelo MPT-7B-8K
(mosaicml.com)- LLM open source de 7B parámetros con soporte para longitud de contexto de 8k
- Entrenado durante 3 días en 256 NVidia H100 usando adicionalmente 500B tokens de datos sobre MPT-7B
- Se publican 3 modelos: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
- Puede usarse con fines comerciales
- Soporta entrada de 8k con ALiBi (Attention with Linear Biases Enables Input Length Extrapolation)
- Entrenamiento e inferencia rápidos con FlashAttention y FasterTrasformer
Aún no hay comentarios.