Boletín oficial legible por IA - 128 mil boletines oficiales de Corea del Sur convertidos de PDF a un corpus en Markdown

(github.com/hosungseo)

16 puntos por hosungseo2026 2026-04-19 | 2 comentarios | Compartir por WhatsApp

El boletín oficial de nuestro país ya es público. Se puede descargar en PDF desde el portal de datos públicos y no hay censura. Entonces, ¿por qué investigadores, periodistas, desarrolladores, organizaciones civiles y funcionarios siguen teniendo que parsear por su cuenta el mismo boletín una y otra vez?
Un corpus derivado del boletín oficial de Corea del Sur, legible tanto para personas como para IA, que reindexa en Markdown alrededor de 128 mil boletines oficiales de Corea del Sur (2020.01.02 ~ 2026.04.07, 1,474 grupos por fecha) y corrige de forma acumulativa el OCR con base en diccionarios.
El autor es un funcionario administrativo de nivel medio del gobierno central.
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/

Los límites de la apertura pensada para humanos

La brecha entre “está publicado” y “un agente de IA puede usarlo” es más grande de lo que parece
En PDF no se pueden comparar artículos por disposición, es difícil filtrar por institución, fecha o caso, el OCR se rompe y la estructura de las tablas se deteriora
Como resultado, el costo del preprocesamiento sigue recayendo del lado del usuario (o del agente). Periodistas, investigadores y funcionarios están desarmando por separado el mismo PDF una y otra vez
El siguiente paso de la transparencia no es “publicar más”, sino “hacer que lo mismo pueda ser leído por máquinas”

Qué incluye

derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — 128,403 archivos Markdown corregidos
En el frontmatter: title / publisher / date / source_raw_md — se puede conectar directamente a chunking → embeddings → RAG
docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — índices JSON estáticos. Se pueden consultar con fetch desde sitios externos sin restricciones de CORS
El lector en vivo es HTML puro que se abre sin herramientas de build (incluye búsqueda, mapa de calor, TOC, modo oscuro y atajos de teclado)
Cobertura institucional: ministerios y agencias centrales ~108,800 casos, poder judicial ~7,700, educación ~4,100, gobiernos locales ~3,300, entre otros, con unas 1,600 instituciones

OCR: sobre open source nacional

Para la extracción OCR de texto desde PDF se usa opendataloader, una herramienta open source de Hancom
Elegir esto en lugar de otras herramientas fue intencional. Como se trata de datos públicos del boletín oficial, parecía correcto que la herramienta también funcionara sobre open source nacional
Si opendataloader sigue mejorando, también disminuirán los caracteres rotos y el diccionario de corrección se volverá naturalmente más liviano
Si la herramienta mejora, el corpus también mejora con ella

Una capa más sobre el PDF

Publicarlo en PDF es una decisión válida desde el punto de vista de prevenir alteraciones. Que el original sea PDF no es en sí mismo el problema
La solución no es “dejemos de publicar en PDF”, sino “mantengamos el PDF como original y añadamos encima una capa derivada legible por IA”
Este repositorio no borra ni reemplaza el texto original. El PDF original se mantiene tal cual, y encima solo se acumula un corpus derivado de lectura en una estructura de dos capas

2 comentarios

meta1001 21 일 전

Está buenísimo. Así, los cambios que en los policy briefings realmente están impulsando en la política pública podrán ser analizados por la IA en tiempo real a medida que cambian en las políticas nacionales y las leyes, y generar resultados.

limhasic 2026-04-20

Jeje, ¿y para qué sirve esto?

Boletín oficial legible por IA - 128 mil boletines oficiales de Corea del Sur convertidos de PDF a un corpus en Markdown

Lecturas relacionadas

2 comentarios