Abren el leaderboard de benchmark de LLM para Lengua Coreana del Suneung

ironman0722 · 2024-10-18T02:43:19+09:00

En Lengua Coreana del Suneung 2024, o1-preview alcanzó nivel 1 (88 puntos, top 4%) gpt-4o va actualmente en primer lugar, llama-3.1-405B-instruct en segundo y Qwen-2.5-72B en tercero Aún, salvo gpt o1-preview, los demás siguen rondando los niveles 3~4 Se puede ver que muchos modelos todavía tienen dificultades para alcanzar el rendimiento humano en el área de lengua coreana. Se evalúa el rendimiento de los LLM con el dataset de alta calidad del Suneung de Lengua Coreana que se renueva cada año Textos de diversas áreas (humanidades, sociedad, ciencia, tecnología, arte), literatura, expresión oral y redacción Usando el mismo puntaje estandarizado y sistema de niveles que el examen real, se comparan el rendimiento humano y el de los LLM Se puede solicitar el benchmark de tu modelo fine-tuned en Hugging Face o de cualquier modelo que te interese ¡Se abrió el leaderboard de benchmark de LLM para Lengua Coreana del Suneung! Este leaderboard mide la capacidad lingüística en coreano de los LLM basándose en preguntas de alta calidad del examen de Lengua Coreana del Suneung. Ofrece un leaderboard que aplica el sistema de cálculo de puntaje estandarizado y niveles del Suneung para comparar el rendimiento de los modelos con el rendimiento humano, y fue creado para compartir esta información con la comunidad. ¡Cualquier feedback es bienvenido en cualquier momento! i.e) ¡Actualmente faltan recursos de GPU para evaluar modelos! Si alguien puede hacer una donación de GPU, se lo agradeceríamos muchísimo. Por el costo de la API, aún no se ha podido probar o1-preview, y se planea probarlo en cuanto salga la versión oficial de o1.

(github.com/minsing-jin)

25 puntos por ironman0722 2024-10-18 | 10 comentarios | Compartir por WhatsApp

En Lengua Coreana del Suneung 2024, o1-preview alcanzó nivel 1 (88 puntos, top 4%)
gpt-4o va actualmente en primer lugar, llama-3.1-405B-instruct en segundo y Qwen-2.5-72B en tercero
- Aún, salvo gpt o1-preview, los demás siguen rondando los niveles 3~4
- Se puede ver que muchos modelos todavía tienen dificultades para alcanzar el rendimiento humano en el área de lengua coreana.
Se evalúa el rendimiento de los LLM con el dataset de alta calidad del Suneung de Lengua Coreana que se renueva cada año
- Textos de diversas áreas (humanidades, sociedad, ciencia, tecnología, arte), literatura, expresión oral y redacción
Usando el mismo puntaje estandarizado y sistema de niveles que el examen real, se comparan el rendimiento humano y el de los LLM
Se puede solicitar el benchmark de tu modelo fine-tuned en Hugging Face o de cualquier modelo que te interese

¡Se abrió el leaderboard de benchmark de LLM para Lengua Coreana del Suneung!

Este leaderboard mide la capacidad lingüística en coreano de los LLM basándose en preguntas de alta calidad del examen de Lengua Coreana del Suneung. Ofrece un leaderboard que aplica el sistema de cálculo de puntaje estandarizado y niveles del Suneung para comparar el rendimiento de los modelos con el rendimiento humano, y fue creado para compartir esta información con la comunidad.

¡Cualquier feedback es bienvenido en cualquier momento!

i.e)

¡Actualmente faltan recursos de GPU para evaluar modelos! Si alguien puede hacer una donación de GPU, se lo agradeceríamos muchísimo.
Por el costo de la API, aún no se ha podido probar o1-preview, y se planea probarlo en cuanto salga la versión oficial de o1.

10 comentarios

roxie 2024-10-24

Parece que al examen de ingreso a la universidad lo llaman CSAT.

doolayer 2024-10-21

También hay imágenes en los pasajes de lengua coreana, así que me da curiosidad por qué no lo hicieron multimodal.

ironman0722 2024-10-21

¡Gracias por su interés en la tabla de clasificación!

La primera razón fue el costo. Cuando produjimos los datos del Suneung, fue en el momento en que se lanzó GPT-4 Turbo el año pasado, así que el costo de crear datos del examen de ingreso universitario de 10 años fue alto.

La segunda razón fue que, para resolver las preguntas del Suneung, era necesario incluir en la explicación todas las pistas, incluida la información de las imágenes. Sin embargo, al usar multimodal había limitaciones, así que terminamos redactando nosotros mismos las descripciones de las imágenes.

ilotoki0804 2024-10-18

¡Qué interesante! Mientras veía el leaderboard, me surgieron algunas dudas y le agradecería si pudiera responderlas.

¿Cuánto tiempo tarda en resolver todo el examen cuando se usa un LLM? En el caso de la sección de Lengua Coreana del CSAT, hay un límite de 80 minutos (incluido el tiempo de marcado en la hoja OMR), así que me da curiosidad cuánto tardaría un LLM en resolver todas las preguntas.
¿Saldría el mismo rango de calificación incluso en un examen fácil? Llevándolo al extremo, en el simulacro de septiembre de este año el corte para nivel 1 fue de 100 puntos de lo fácil que estuvo, así que me pregunto si, aun tomando ese simulacro, podría obtener un rango similar al que saca en otros simulacros.

Yo esperaría que el tiempo usado fuera mucho menor a 80 minutos y que incluso en un examen fácil sacara una puntuación absoluta parecida, pero me da curiosidad saber cómo sería en la práctica.

ironman0722 2024-10-21

¡Muchas gracias por el gran interés en el leaderboard del benchmark de LLM para Coreano del CSAT! Para responder a tu pregunta:

Tomó entre 10 minutos en el caso más corto y alrededor de 25 minutos en el más largo.
Viéndolo solo por los resultados, parece que hay modelos en los que la dificultad del examen sí influye en qué tan bien resuelven los problemas, y otros en los que no, así que es difícil generalizar.

Por ejemplo, en el caso de gpt-4o, pudimos confirmar que obtuvo mejores puntajes en los CSAT más fáciles entre 2015 y 2018, cuando el puntaje estandarizado máximo estaba en el rango de 130, y que también sus calificaciones fueron mejores en comparación con los exámenes más difíciles de otros años.
Sin embargo, en el caso del modelo Meta Llama 3.1 70B, aunque obtuvo calificaciones y puntajes estandarizados bajos en los CSAT entre 2015 y 2018, en el CSAT 2022, cuyo puntaje estandarizado máximo estuvo en el rango de 149, hubo casos en los que consiguió nivel 3.

Si tienes alguna otra duda o hay alguna explicación que deba complementar, no dudes en decírmelo en cualquier momento.

ilotoki0804 2024-10-21

Oh... entonces sí hay pequeñas diferencias de tendencia entre los modelos, ¿no? De verdad se siente muy humano. ¡Gracias por la explicación detallada!

doolayer 2024-10-21

Sobre el punto 1,
al final, como son 45 preguntas de opción múltiple con 5 opciones, parece que lo resolverán para 45 muestras (entradas) con 1 token (1,2,3,4,5) en unos cientos de segundos.

savvykang 2024-10-18

Es raro pero también divertido que a la IA le pongan una calificación del CSAT de coreano.

mammal 2024-10-18

Es una referencia de comprensión lectora del examen de acceso a la universidad, pero es irónico que el README esté en inglés.

ng0301 2024-10-18

Según el estándar del coreano, no creo que haya un dataset de benchmark open source de tanta calidad como este jajaja

Abren el leaderboard de benchmark de LLM para Lengua Coreana del Suneung

Lecturas relacionadas

10 comentarios