- Desarrolló y aplicó una técnica de Depth Up-Scaling para maximizar las capacidades del Llama2 7B existente
- En benchmarks, muestra un rendimiento sobresaliente entre los modelos con menos de 30 mil millones de parámetros, y supera a QWEN, que es 6 veces más grande, así como al recientemente lanzado modelo Mixtral 8x7B
- Ocupa el 1.er lugar en el leaderboard de OpenLLM con 74.2 puntos. El QWEN-72B de Alibaba tiene 73.6 y Mixtral-8x7B tiene 72.6
- El fine-tuning de instrucciones está bien aplicado
- Como el modelo publicado esta vez está basado en inglés, su rendimiento en coreano puede ser bajo
1 comentarios
Upstage es la empresa creadora de AskUp, una IA que se puede usar en KakaoTalk.
Alibaba publica el modelo de IA de código abierto QWEN
Mistral AI publica el modelo Mixtral 8x7B, superior a Llama 2 70B