ko-arena-hard-auto: un benchmark para medir el rendimiento en coreano de los LLM
(github.com/qwopqwop200)Leaderboard / Código / Dataset
La preferencia humana es uno de los indicadores importantes para evaluar el rendimiento de los LLM.
Sin embargo, medir la preferencia humana es muy complicado y costoso.
Existen propuestas como MT-Bench y Arena-Hard-Auto, que buscan resolver este problema usando LLM-as-a-Judge.
Pero los benchmarks anteriores están pensados para inglés.
Por supuesto, en coreano también existen buenos benchmarks como KoMT-Bench, LogicKor y Horangi.
Sin embargo, los benchmarks existentes se basan en MT-Bench, y se sabe que MT-Bench tiene una menor correlación con la preferencia humana y menor capacidad de separación en comparación con Arena-Hard-Auto.
Para resolver este problema, ko-arena-hard-auto se basa en Arena-Hard-Auto
y utiliza una traducción al coreano de las 500 preguntas difíciles y exigentes de Arena-Hard-Auto.
La traducción se realizó con GPT-4o y o1, y fue revisada manualmente.
Además, se diferencia del Arena-Hard-Auto original en tres aspectos importantes.
- Usa un prompt de sistema para el judge que toma en cuenta el code-mixing y el code-switching.
- Usa y hace ensemble de gemini-2.0-flash, gpt-4o-mini y deepseek-chat-v3-0324 como modelos judge. Esto reduce el sesgo de auto-preferencia y permite medir el rendimiento a un costo menor que el Arena-Hard-Auto original.
- El modelo baseline es claude-3.7-sonnet. Considerando la mejora general del rendimiento de los LLM, se estableció como baseline un LLM potente como claude-3.7-sonnet.
Los resultados del benchmarking pueden consultarse aquí: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html
Código: https://github.com/qwopqwop200/ko-arena-hard-auto
Dataset: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1
Aún no hay comentarios.