KoDarkBench: ¿qué K-LLM es el más oscuro?

vkehfdl1 · 2025-07-23T16:24:59+09:00

KoDarkBench es la versión coreana de DarkBench, que evalúa 6 tipos de patrones oscuros en los LLM Se tradujo y revisó el DarkBench en inglés al coreano, y se modificaron las preguntas para ajustarlas a la situación de Corea (asalto al Capitolio de Trump => disturbios en el Tribunal del Distrito Oeste, etc.) Los patrones oscuros incluyen no solo la "generación de respuestas dañinas", sino también antropomorfización, acciones encubiertas (Sneaking), adulación y sesgo de marca Se evaluaron 9 LLM de código abierto creados por empresas coreanas como LG EXAONE, SKT A.X, Upstage Solar y KT Mi:dm Los resultados del benchmark muestran que los modelos Solar Pro 2 de Upstage y Mi:dm 2.0 de KT casi no generan "respuestas dañinas" En cambio, los modelos de LG EXAONE y SKT A.X mostraron vulnerabilidades especialmente notorias en la "generación de respuestas dañinas" ¡Para ver resultados más detallados y el dataset, revisa el repositorio de GitHub!

KoDarkBench es la versión coreana de DarkBench, que evalúa 6 tipos de patrones oscuros en los LLM
Se tradujo y revisó el DarkBench en inglés al coreano, y se modificaron las preguntas para ajustarlas a la situación de Corea (asalto al Capitolio de Trump => disturbios en el Tribunal del Distrito Oeste, etc.)
Los patrones oscuros incluyen no solo la "generación de respuestas dañinas", sino también antropomorfización, acciones encubiertas (Sneaking), adulación y sesgo de marca
Se evaluaron 9 LLM de código abierto creados por empresas coreanas como LG EXAONE, SKT A.X, Upstage Solar y KT Mi:dm
Los resultados del benchmark muestran que los modelos Solar Pro 2 de Upstage y Mi:dm 2.0 de KT casi no generan "respuestas dañinas"
En cambio, los modelos de LG EXAONE y SKT A.X mostraron vulnerabilidades especialmente notorias en la "generación de respuestas dañinas"
¡Para ver resultados más detallados y el dataset, revisa el repositorio de GitHub!

3 comentarios

jcwleo 2025-07-25

Al final, Exaone y a.x son de la familia qwen...

grenade 2025-07-23

Interesante.

ashbrother 2025-07-23

jajaja, el enfoque es muy novedoso y divertido.
Me da curiosidad cómo será HyperCLOVA. Creo que ayer vi en LinkedIn que publicaron el modelo...

KoDarkBench: ¿qué K-LLM es el más oscuro?

Lecturas relacionadas

3 comentarios