Upstage publica el modelo SOLAR de 10.7B con una licencia apta para uso comercial

xguru · 2023-12-15T08:52:33+09:00

Desarrolló y aplicó una técnica de Depth Up-Scaling para maximizar las capacidades del Llama2 7B existente En benchmarks, muestra un rendimiento sobresaliente entre los modelos con menos de 30 mil millones de parámetros, y supera a QWEN, que es 6 veces más grande, así como al recientemente lanzado modelo Mixtral 8x7B Ocupa el 1.er lugar en el leaderboard de OpenLLM con 74.2 puntos. El QWEN-72B de Alibaba tiene 73.6 y Mixtral-8x7B tiene 72.6 El fine-tuning de instrucciones está bien aplicado Como el modelo publicado esta vez está basado en inglés, su rendimiento en coreano puede ser bajo

(huggingface.co)

9 puntos por xguru 2023-12-15 | 1 comentarios | Compartir por WhatsApp

Desarrolló y aplicó una técnica de Depth Up-Scaling para maximizar las capacidades del Llama2 7B existente
En benchmarks, muestra un rendimiento sobresaliente entre los modelos con menos de 30 mil millones de parámetros, y supera a QWEN, que es 6 veces más grande, así como al recientemente lanzado modelo Mixtral 8x7B
- Ocupa el 1.er lugar en el leaderboard de OpenLLM con 74.2 puntos. El QWEN-72B de Alibaba tiene 73.6 y Mixtral-8x7B tiene 72.6
El fine-tuning de instrucciones está bien aplicado
Como el modelo publicado esta vez está basado en inglés, su rendimiento en coreano puede ser bajo

1 comentarios

xguru 2023-12-15

Upstage es la empresa creadora de AskUp, una IA que se puede usar en KakaoTalk.
Alibaba publica el modelo de IA de código abierto QWEN
Mistral AI publica el modelo Mixtral 8x7B, superior a Llama 2 70B

Upstage publica el modelo SOLAR de 10.7B con una licencia apta para uso comercial

Lecturas relacionadas

1 comentarios