Abren el leaderboard de benchmark de LLM para Lengua Coreana del Suneung
(github.com/minsing-jin)- En Lengua Coreana del Suneung 2024,
o1-previewalcanzó nivel 1 (88 puntos, top 4%) gpt-4ova actualmente en primer lugar,llama-3.1-405B-instructen segundo yQwen-2.5-72Ben tercero- Aún, salvo
gpt o1-preview, los demás siguen rondando los niveles 3~4 - Se puede ver que muchos modelos todavía tienen dificultades para alcanzar el rendimiento humano en el área de lengua coreana.
- Aún, salvo
- Se evalúa el rendimiento de los LLM con el dataset de alta calidad del Suneung de Lengua Coreana que se renueva cada año
- Textos de diversas áreas (humanidades, sociedad, ciencia, tecnología, arte), literatura, expresión oral y redacción
- Usando el mismo puntaje estandarizado y sistema de niveles que el examen real, se comparan el rendimiento humano y el de los LLM
- Se puede solicitar el benchmark de tu modelo fine-tuned en Hugging Face o de cualquier modelo que te interese
¡Se abrió el leaderboard de benchmark de LLM para Lengua Coreana del Suneung!
Este leaderboard mide la capacidad lingüística en coreano de los LLM basándose en preguntas de alta calidad del examen de Lengua Coreana del Suneung. Ofrece un leaderboard que aplica el sistema de cálculo de puntaje estandarizado y niveles del Suneung para comparar el rendimiento de los modelos con el rendimiento humano, y fue creado para compartir esta información con la comunidad.
¡Cualquier feedback es bienvenido en cualquier momento!
i.e)
-
¡Actualmente faltan recursos de GPU para evaluar modelos! Si alguien puede hacer una donación de GPU, se lo agradeceríamos muchísimo.
-
Por el costo de la API, aún no se ha podido probar
o1-preview, y se planea probarlo en cuanto salga la versión oficial deo1.
10 comentarios
Parece que al examen de ingreso a la universidad lo llaman CSAT.
También hay imágenes en los pasajes de lengua coreana, así que me da curiosidad por qué no lo hicieron multimodal.
¡Gracias por su interés en la tabla de clasificación!
La primera razón fue el costo. Cuando produjimos los datos del Suneung, fue en el momento en que se lanzó GPT-4 Turbo el año pasado, así que el costo de crear datos del examen de ingreso universitario de 10 años fue alto.
La segunda razón fue que, para resolver las preguntas del Suneung, era necesario incluir en la explicación todas las pistas, incluida la información de las imágenes. Sin embargo, al usar multimodal había limitaciones, así que terminamos redactando nosotros mismos las descripciones de las imágenes.
¡Qué interesante! Mientras veía el leaderboard, me surgieron algunas dudas y le agradecería si pudiera responderlas.
Yo esperaría que el tiempo usado fuera mucho menor a 80 minutos y que incluso en un examen fácil sacara una puntuación absoluta parecida, pero me da curiosidad saber cómo sería en la práctica.
¡Muchas gracias por el gran interés en el leaderboard del benchmark de LLM para Coreano del CSAT! Para responder a tu pregunta:
Por ejemplo, en el caso de gpt-4o, pudimos confirmar que obtuvo mejores puntajes en los CSAT más fáciles entre 2015 y 2018, cuando el puntaje estandarizado máximo estaba en el rango de 130, y que también sus calificaciones fueron mejores en comparación con los exámenes más difíciles de otros años.
Sin embargo, en el caso del modelo Meta Llama 3.1 70B, aunque obtuvo calificaciones y puntajes estandarizados bajos en los CSAT entre 2015 y 2018, en el CSAT 2022, cuyo puntaje estandarizado máximo estuvo en el rango de 149, hubo casos en los que consiguió nivel 3.
Si tienes alguna otra duda o hay alguna explicación que deba complementar, no dudes en decírmelo en cualquier momento.
Oh... entonces sí hay pequeñas diferencias de tendencia entre los modelos, ¿no? De verdad se siente muy humano. ¡Gracias por la explicación detallada!
Sobre el punto 1,
al final, como son 45 preguntas de opción múltiple con 5 opciones, parece que lo resolverán para 45 muestras (entradas) con 1 token (1,2,3,4,5) en unos cientos de segundos.
Es raro pero también divertido que a la IA le pongan una calificación del CSAT de coreano.
Es una referencia de comprensión lectora del examen de acceso a la universidad, pero es irónico que el README esté en inglés.
Según el estándar del coreano, no creo que haya un dataset de benchmark open source de tanta calidad como este jajaja