8 puntos por kyujin 2026-02-02 | Aún no hay comentarios. | Compartir por WhatsApp

Con el reciente aumento del interés en los VLM, se publicaron benchmarks que permiten verificar la capacidad en coreano de los VLM en distintas áreas.

Este proyecto presenta un total de 3 benchmarks.

  • KO-VQA: evalúa la capacidad de comprensión de documentos en coreano de diversos dominios y la capacidad de inferir respuestas basadas en documentos
  • KO-VDC: evalúa la capacidad de comprender materiales diagramáticos visuales en coreano y la capacidad de generar/comprender textos explicativos basados en diagramas
  • KO-OCRAG: evalúa la capacidad de OCR sobre documentos en coreano con estructuras complejas y la capacidad de parsing del contexto visual que aparece en los documentos

La evaluación de todos los datasets no depende de LLM-as-a-Judge, sino que se realiza en un formato completamente de opción múltiple.
Se comparan varios VLM de código abierto que pueden ejecutarse en una sola A100 de 40GB u 80GB, junto con gemini, que es closed-source.

  • gemini mostró un rendimiento abrumador en todos los benchmarks.
  • Entre los modelos open source, Qwen3 mostró un rendimiento sobresaliente.
  • El modelo VARCO-VISION-2.0 de NCSoft también mostró un rendimiento nada malo.
  • En resumen, se confirma que la brecha de rendimiento en coreano entre los VLM closed-source y open-source sigue siendo bastante grande.
  • Además, sorprendió que gemini mostrara una puntuación casi perfecta;;

Para una explicación detallada de cada dataset, revisa cada README.
KO-VQA README
KO-VDC README
KO-OCRAG README

⭐⭐¡Los stars en Github⭐⭐, el interés y la difusión son de gran ayuda para crear proyectos open source!
Este proyecto se llevó a cabo con el apoyo de markrAI.

Aún no hay comentarios.

Aún no hay comentarios.