¿Qué tan bien leen los VLM los documentos de instituciones públicas de Corea? Se publica el benchmark KOLongDoc

(github.com/Marker-Inc-Korea)

5 puntos por kyujin 2026-06-04 | 1 comentarios | Compartir por WhatsApp

🔥 ¡Presentamos KOLongDoc, un benchmark coreano de VLM para documentos largos!

Recientemente, las IA multimodales como ChatGPT, Claude y Gemini han empezado a usarse también en tareas públicas y administrativas, pero casi no existían benchmarks para evaluar realmente "qué tan bien entienden los documentos largos en coreano".

Los benchmarks coreanos de VLM que ya existían se enfocaban en OCR, VQA, comprensión de gráficos e interpretación de imágenes, pero

❌ documentos de alta resolución de decenas de páginas
❌ razonamiento multi-hop que conecta información entre varias páginas
❌ comprensión de documentos con long context

seguían teniendo limitaciones para evaluarse de manera integral.

Por eso creamos el benchmark KOLongDoc 📄 y lo publicamos como open source.

✅ Basado en documentos de instituciones públicas de Corea
✅ QA multi-page / multi-hop
✅ Evaluación de comprensión de documentos largos en alta resolución
✅ Un total de 200 preguntas de evaluación

KOLongDoc es un benchmark para evaluar qué tan bien los VLM nacionales e internacionales pueden comprender y razonar con documentos públicos reales en coreano.

Si quieren conocer más detalles y cómo usarlo, visiten Hugging Face y GitHub.

🤗 Dataset:
https://huggingface.co/datasets/Markr-AI/KOLongDoc

📝 Presentación en GitHub:
https://github.com/Marker-Inc-Korea/KOLongDoc

¡Agradecemos feedback y casos de uso del benchmark!

1 comentarios

cosine20 2026-06-05

Hay demasiados emojis en el README, así que distrae un poco... pero supongo que esa es la tendencia últimamente.

¿Qué tan bien leen los VLM los documentos de instituciones públicas de Corea? Se publica el benchmark KOLongDoc

Lecturas relacionadas

1 comentarios