Boletín oficial legible por IA - 128 mil boletines oficiales de Corea del Sur convertidos de PDF a un corpus en Markdown
(github.com/hosungseo)El boletín oficial de nuestro país ya es público. Se puede descargar en PDF desde el portal de datos públicos y no hay censura. Entonces, ¿por qué investigadores, periodistas, desarrolladores, organizaciones civiles y funcionarios siguen teniendo que parsear por su cuenta el mismo boletín una y otra vez?
Un corpus derivado del boletín oficial de Corea del Sur, legible tanto para personas como para IA, que reindexa en Markdown alrededor de 128 mil boletines oficiales de Corea del Sur (2020.01.02 ~ 2026.04.07, 1,474 grupos por fecha) y corrige de forma acumulativa el OCR con base en diccionarios.
El autor es un funcionario administrativo de nivel medio del gobierno central.
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/
Los límites de la apertura pensada para humanos
- La brecha entre “está publicado” y “un agente de IA puede usarlo” es más grande de lo que parece
- En PDF no se pueden comparar artículos por disposición, es difícil filtrar por institución, fecha o caso, el OCR se rompe y la estructura de las tablas se deteriora
- Como resultado, el costo del preprocesamiento sigue recayendo del lado del usuario (o del agente). Periodistas, investigadores y funcionarios están desarmando por separado el mismo PDF una y otra vez
- El siguiente paso de la transparencia no es “publicar más”, sino “hacer que lo mismo pueda ser leído por máquinas”
Qué incluye
derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md— 128,403 archivos Markdown corregidos- En el frontmatter:
title / publisher / date / source_raw_md— se puede conectar directamente a chunking → embeddings → RAG docs/data/meta.json,dates/YYYY-MM-DD.json,titles.json— índices JSON estáticos. Se pueden consultar confetchdesde sitios externos sin restricciones de CORS- El lector en vivo es HTML puro que se abre sin herramientas de build (incluye búsqueda, mapa de calor, TOC, modo oscuro y atajos de teclado)
- Cobertura institucional: ministerios y agencias centrales ~108,800 casos, poder judicial ~7,700, educación ~4,100, gobiernos locales ~3,300, entre otros, con unas 1,600 instituciones
OCR: sobre open source nacional
- Para la extracción OCR de texto desde PDF se usa opendataloader, una herramienta open source de Hancom
- Elegir esto en lugar de otras herramientas fue intencional. Como se trata de datos públicos del boletín oficial, parecía correcto que la herramienta también funcionara sobre open source nacional
- Si opendataloader sigue mejorando, también disminuirán los caracteres rotos y el diccionario de corrección se volverá naturalmente más liviano
- Si la herramienta mejora, el corpus también mejora con ella
Una capa más sobre el PDF
- Publicarlo en PDF es una decisión válida desde el punto de vista de prevenir alteraciones. Que el original sea PDF no es en sí mismo el problema
- La solución no es “dejemos de publicar en PDF”, sino “mantengamos el PDF como original y añadamos encima una capa derivada legible por IA”
- Este repositorio no borra ni reemplaza el texto original. El PDF original se mantiene tal cual, y encima solo se acumula un corpus derivado de lectura en una estructura de dos capas
2 comentarios
Está buenísimo. Así, los cambios que en los policy briefings realmente están impulsando en la política pública podrán ser analizados por la IA en tiempo real a medida que cambian en las políticas nacionales y las leyes, y generar resultados.
Jeje, ¿y para qué sirve esto?