- El modelo de lenguaje más potente hasta ahora
- Un modelo de 7.3B parámetros que supera a Llama 2 13B en todos los benchmarks y a Llama 1 34B en muchos benchmarks
- Usa Grouped-query attention (GQA) para una inferencia más rápida y Sliding Window Attention (SWA) para procesar secuencias más largas con menor costo
- Con licencia Apache 2.0, puede usarse sin restricciones
- Puede desplegarse en cualquier nube (AWS/GCP/Azure) usando el servidor de inferencia vLLM y skypilot, y también puede usarse en HuggingFace
- Se puede ajustar finamente con facilidad, y el modelo ajustado para chat supera a Llama 2 13B Chat
1 comentarios
Opiniones de Hacker News