Llama 2 Chat 70B supera a ChatGPT (3.5) en evaluación de modelos

xguru · 2023-07-31T10:17:01+09:00

Según el leaderboard de AlpacaEval, que evalúa automáticamente modelos de lenguaje de seguimiento de instrucciones GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37% AlpacaEval realiza la evaluación automática comparando con las respuestas generadas por GPT-4 usando el conjunto de evaluación de AlpacaFarm

(tatsu-lab.github.io)

10 puntos por xguru 2023-07-31 | Aún no hay comentarios. | Compartir por WhatsApp

Según el leaderboard de AlpacaEval, que evalúa automáticamente modelos de lenguaje de seguimiento de instrucciones
GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
AlpacaEval realiza la evaluación automática comparando con las respuestas generadas por GPT-4 usando el conjunto de evaluación de AlpacaFarm

Llama 2 Chat 70B supera a ChatGPT (3.5) en evaluación de modelos

Lecturas relacionadas

Aún no hay comentarios.