9 puntos por xguru 2023-12-15 | 1 comentarios | Compartir por WhatsApp
  • Desarrolló y aplicó una técnica de Depth Up-Scaling para maximizar las capacidades del Llama2 7B existente
  • En benchmarks, muestra un rendimiento sobresaliente entre los modelos con menos de 30 mil millones de parámetros, y supera a QWEN, que es 6 veces más grande, así como al recientemente lanzado modelo Mixtral 8x7B
    • Ocupa el 1.er lugar en el leaderboard de OpenLLM con 74.2 puntos. El QWEN-72B de Alibaba tiene 73.6 y Mixtral-8x7B tiene 72.6
  • El fine-tuning de instrucciones está bien aplicado
  • Como el modelo publicado esta vez está basado en inglés, su rendimiento en coreano puede ser bajo

1 comentarios