33 puntos por xguru 2023-03-19 | 1 comentarios | Compartir por WhatsApp
  • Entrenado con el mismo método de entrenamiento que el modelo Alpaca de Stanford
  • Usa Polyglot-ko 5.8B y LLaMA 7B como modelos base
    • LLaMA tiene un rendimiento bajo en coreano debido a la falta de entrenamiento con datasets en coreano, por lo que se entrenó adicionalmente un modelo en coreano
  • El dataset de 52k instrucciones de LLaMA fue traducido con la API de DeepL

1 comentarios

 
luckydaun 2023-03-19

Oh... de verdad este ecosistema está evolucionando a una velocidad increíble. Incluso en los modelos Transformer existentes, la diferencia de rendimiento entre los modelos localizados para coreano y los modelos de propósito general es enorme; es un buen proyecto open source.