14 puntos por libner 2024-03-29 | 3 comentarios | Compartir por WhatsApp

Se trata de un benchmark coreano para modelos de lenguaje, creado con inspiración en MT-Bench, un benchmark del ámbito angloparlante compuesto por 10 preguntas en cada una de 8 categorías.
Según comenta su creador, lo desarrolló al ver limitaciones en los benchmarks que se usan actualmente para modelos de lenguaje en coreano.

A continuación se muestra una parte citada del texto del creador sobre el benchmark LogicKor.


Dividimos de la siguiente manera 6 temas con los que se puede evaluar la capacidad de razonamiento de los modelos coreanos.  
Reasoning - pensamiento lógico, resolución de problemas  
Math - conceptos matemáticos, cálculo  
Writing - coherencia entre oraciones, creatividad  
Coding - conocimiento de programación, implementación de funciones  
Understanding - comprensión de textos, extracción de información, seguimiento de instrucciones  
Grammar - ortografía del coreano, reglas de pronunciación estándar  
  
Y además, creamos 7 preguntas multiturno para cada tema.

3 comentarios

 
skymer 2024-03-29

No hay mucha explicación en el repositorio, pero ¿podrías adjuntar también el enlace al texto que citaste?

 
libner 2024-03-29

Como es una publicación subida a un sitio comunitario, la elección de palabras puede ser un poco fuerte... Por eso, me preocupaba que la sección de comentarios pudiera salirse de control y no había puesto el enlace de la publicación.
Esta es la dirección de esa publicación: https://arca.live/b/alpaca/102052014

 
skymer 2024-03-29

¡Gracias! Me daba la impresión de que Upstage estaba difundiendo resultados de benchmark bastante sospechosos, así que veo que no fui el único en pensarlo... La percepción de rendimiento de ClovaX no era tan buena, pero entre los modelos coreanos está en primer lugar.