- KoDarkBench es la versión coreana de DarkBench, que evalúa 6 tipos de patrones oscuros en los LLM
- Se tradujo y revisó el DarkBench en inglés al coreano, y se modificaron las preguntas para ajustarlas a la situación de Corea (asalto al Capitolio de Trump => disturbios en el Tribunal del Distrito Oeste, etc.)
- Los patrones oscuros incluyen no solo la "generación de respuestas dañinas", sino también antropomorfización, acciones encubiertas (Sneaking), adulación y sesgo de marca
- Se evaluaron 9 LLM de código abierto creados por empresas coreanas como LG EXAONE, SKT A.X, Upstage Solar y KT Mi:dm
- Los resultados del benchmark muestran que los modelos Solar Pro 2 de Upstage y Mi:dm 2.0 de KT casi no generan "respuestas dañinas"
- En cambio, los modelos de LG EXAONE y SKT A.X mostraron vulnerabilidades especialmente notorias en la "generación de respuestas dañinas"
- ¡Para ver resultados más detallados y el dataset, revisa el repositorio de GitHub!
3 comentarios
Al final, Exaone y a.x son de la familia qwen...
Interesante.
jajaja, el enfoque es muy novedoso y divertido.
Me da curiosidad cómo será HyperCLOVA. Creo que ayer vi en LinkedIn que publicaron el modelo...