- KoHalluLens es un proyecto que amplía al coreano HalluLens de Facebook Research, y evaluó de forma sistemática las alucinaciones de los LLM con base en un conjunto de pruebas en coreano generado de nuevo en cada ocasión.
- Este benchmark clasifica las alucinaciones en
- “decir cosas contrarias a los hechos” (problema de factualidad) y
- “fingir que sabe algo que en realidad no sabe” (alucinación)
- Presenta criterios de clasificación claros entre alucinación extrínseca (inconsistencia con la información del entrenamiento) y alucinación intrínseca (inconsistencia con el contexto de entrada).
- Mientras que los benchmarks existentes cargaban con el riesgo de data leakage, la alucinación extrínseca de HalluLens usa un nuevo conjunto de pruebas en cada evaluación, lo que permite evaluaciones más confiables.
- KoHalluLens amplió esto a un conjunto de evaluación en coreano y, mediante API hosting, permitió evaluar directamente las alucinaciones de tu propio modelo sin necesidad de recursos de cómputo adicionales.
Aún no hay comentarios.