LogicKor: benchmark de razonamiento multidisciplinario para modelos de lenguaje en coreano
(github.com/StableFluffy)Se trata de un benchmark coreano para modelos de lenguaje, creado con inspiración en MT-Bench, un benchmark del ámbito angloparlante compuesto por 10 preguntas en cada una de 8 categorías.
Según comenta su creador, lo desarrolló al ver limitaciones en los benchmarks que se usan actualmente para modelos de lenguaje en coreano.
A continuación se muestra una parte citada del texto del creador sobre el benchmark LogicKor.
Dividimos de la siguiente manera 6 temas con los que se puede evaluar la capacidad de razonamiento de los modelos coreanos.
Reasoning - pensamiento lógico, resolución de problemas
Math - conceptos matemáticos, cálculo
Writing - coherencia entre oraciones, creatividad
Coding - conocimiento de programación, implementación de funciones
Understanding - comprensión de textos, extracción de información, seguimiento de instrucciones
Grammar - ortografía del coreano, reglas de pronunciación estándar
Y además, creamos 7 preguntas multiturno para cada tema.
3 comentarios
No hay mucha explicación en el repositorio, pero ¿podrías adjuntar también el enlace al texto que citaste?
Como es una publicación subida a un sitio comunitario, la elección de palabras puede ser un poco fuerte... Por eso, me preocupaba que la sección de comentarios pudiera salirse de control y no había puesto el enlace de la publicación.
Esta es la dirección de esa publicación: https://arca.live/b/alpaca/102052014
¡Gracias! Me daba la impresión de que Upstage estaba difundiendo resultados de benchmark bastante sospechosos, así que veo que no fui el único en pensarlo... La percepción de rendimiento de ClovaX no era tan buena, pero entre los modelos coreanos está en primer lugar.