7 puntos por qwopqwop200 2025-04-06 | Aún no hay comentarios. | Compartir por WhatsApp

Leaderboard / Código / Dataset

La preferencia humana es uno de los indicadores importantes para evaluar el rendimiento de los LLM.
Sin embargo, medir la preferencia humana es muy complicado y costoso.
Existen propuestas como MT-Bench y Arena-Hard-Auto, que buscan resolver este problema usando LLM-as-a-Judge.
Pero los benchmarks anteriores están pensados para inglés.

Por supuesto, en coreano también existen buenos benchmarks como KoMT-Bench, LogicKor y Horangi.

Sin embargo, los benchmarks existentes se basan en MT-Bench, y se sabe que MT-Bench tiene una menor correlación con la preferencia humana y menor capacidad de separación en comparación con Arena-Hard-Auto.

Para resolver este problema, ko-arena-hard-auto se basa en Arena-Hard-Auto
y utiliza una traducción al coreano de las 500 preguntas difíciles y exigentes de Arena-Hard-Auto.
La traducción se realizó con GPT-4o y o1, y fue revisada manualmente.

Además, se diferencia del Arena-Hard-Auto original en tres aspectos importantes.

  1. Usa un prompt de sistema para el judge que toma en cuenta el code-mixing y el code-switching.
  2. Usa y hace ensemble de gemini-2.0-flash, gpt-4o-mini y deepseek-chat-v3-0324 como modelos judge. Esto reduce el sesgo de auto-preferencia y permite medir el rendimiento a un costo menor que el Arena-Hard-Auto original.
  3. El modelo baseline es claude-3.7-sonnet. Considerando la mejora general del rendimiento de los LLM, se estableció como baseline un LLM potente como claude-3.7-sonnet.

Los resultados del benchmarking pueden consultarse aquí: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html

Código: https://github.com/qwopqwop200/ko-arena-hard-auto
Dataset: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1

Aún no hay comentarios.

Aún no hay comentarios.