¿Qué tan bien leen los VLM los documentos de instituciones públicas de Corea? Se publica el benchmark KOLongDoc
(github.com/Marker-Inc-Korea)🔥 ¡Presentamos KOLongDoc, un benchmark coreano de VLM para documentos largos!
Recientemente, las IA multimodales como ChatGPT, Claude y Gemini han empezado a usarse también en tareas públicas y administrativas, pero casi no existían benchmarks para evaluar realmente "qué tan bien entienden los documentos largos en coreano".
Los benchmarks coreanos de VLM que ya existían se enfocaban en OCR, VQA, comprensión de gráficos e interpretación de imágenes, pero
❌ documentos de alta resolución de decenas de páginas
❌ razonamiento multi-hop que conecta información entre varias páginas
❌ comprensión de documentos con long context
seguían teniendo limitaciones para evaluarse de manera integral.
Por eso creamos el benchmark KOLongDoc 📄 y lo publicamos como open source.
✅ Basado en documentos de instituciones públicas de Corea
✅ QA multi-page / multi-hop
✅ Evaluación de comprensión de documentos largos en alta resolución
✅ Un total de 200 preguntas de evaluación
KOLongDoc es un benchmark para evaluar qué tan bien los VLM nacionales e internacionales pueden comprender y razonar con documentos públicos reales en coreano.
Si quieren conocer más detalles y cómo usarlo, visiten Hugging Face y GitHub.
🤗 Dataset:
https://huggingface.co/datasets/Markr-AI/KOLongDoc
📝 Presentación en GitHub:
https://github.com/Marker-Inc-Korea/KOLongDoc
¡Agradecemos feedback y casos de uso del benchmark!
Aún no hay comentarios.