Lista de herramientas open source para procesar HWP/HWPX
(ko.wikipedia.org)Wikipedia no es un tablón publicitario para presentar o promocionar algo. Pero pensé que el hecho de que en tan poco tiempo hayan surgido tantas librerías también puede verse como un fenómeno que define una época.
Por eso decidí dejar constancia documental de este fenómeno actual y ordenar las herramientas open source de HWP/HWPX que han aparecido hasta ahora para publicarlas en MediaWiki.
Lista de herramientas open source para procesar HWP/HWPX
HWP (Hanword) y su formato sucesor, HWPX, son formatos de documento ampliamente utilizados en instituciones públicas y entornos educativos de Corea. Como Hancom Office Hanword se consolidó como estándar de facto, durante mucho tiempo existió la limitación de que, para manejar este formato de manera programática, era necesario tener Hancom Office instalado en un entorno Windows.
A comienzos de la década de 2010, Kim Hodong desarrolló por su cuenta ruby-hwp, libhwp, evince-hwp y otros proyectos, sentando la primera base del ecosistema open source de HWP. Sin embargo, en 2013, debido al incidente de libhwp, quedó desencantado con el desarrollo open source y, sumado al deterioro de su salud, abandonó todos los proyectos.[1][2] Después de eso, durante un tiempo, la actividad open source en este ámbito continuó solo de forma esporádica.
Alrededor de 2024 la situación cambió. Con la expansión de la IA generativa, aumentó drásticamente la demanda de incorporar documentos HWP/HWPX en pipelines de IA o procesarlos con herramientas de automatización. En consecuencia, en poco tiempo aparecieron muchas herramientas open source que funcionan sin Hancom Office, y también se diversificaron sus formas, desde librerías implementadas en distintos lenguajes como Python, Rust y TypeScript, hasta CLI, servidores MCP y editores web.
La siguiente tabla organiza las principales herramientas open source de HWP/HWPX disponibles actualmente.
(Pueden consultar la tabla organizada en el enlace de MediaWiki).
Para Kim Hodong
En 2013, un desarrollador, por sí solo, construyó casi toda la base para tratar archivos Hanword como open source, con proyectos como ruby-hwp, libhwp y evince-hwp. Debido al incidente de libhwp, quedó desencantado con el desarrollo open source y, junto con el deterioro de su salud, cerró los proyectos y se fue. Si las herramientas enumeradas en este documento pudieron existir, fue porque Hodong vio primero esa posibilidad y abrió el camino. Este documento fue creado para rendir homenaje a ese trabajo pionero.
9 comentarios
¿Por qué desapareció el documento de la wiki?
Por lo que encontré, parece que el Sr. Kim Ho-dong también pasó por muchísimo estrés en 2019. Al leer el texto, se nota que había demasiadas personas problemáticas y abusivas. (¿Todavía las habrá ahora?)
https://hamonikr.org/Free_Board/63139
Creo que también hay que escuchar la otra versión.
Esto es bastante conocido. En 2011, 2013, 2016 y 2019, le pasan cosas similares a la misma persona. Esta persona declara repetidamente que abandona el proyecto e incluso que deja el open source, critica a quienes reportaron bugs en el proyecto y, pasado un tiempo, vuelve a retomarlo; ha repetido este patrón varias veces. Como parece buscar mucho su propio nombre, va dejando búsquedas por palabras clave en todo tipo de foros y wikis, en cualquier lugar donde haya conversaciones relacionadas. (Puede que incluso entre aquí después de ver este comentario).
¿Deberíamos creerle y entenderlo solo porque es desarrollador?
Gracias por el comentario. Así que pasaron esas cosas. Parece que lo que vi no era todo. Gracias de nuevo por compartir información desde otra perspectiva.
Como queda código existente, es posible verificar directamente qué implementación es.
https://gitlab.com/sebuls/libhwp
rip
BckHWP. Automatización de Excel VBA
https://m.blog.naver.com/husky81/222045248589
Vaya, cuando lo vi en 2020 no había muchas bibliotecas que pudieran manejar HWP, pero últimamente han aumentado de forma explosiva.
No es que
libhwpfuera la razón decisiva, sino que el problema era más bien ese grupo basura. No hay sujeto en la frase; si te enojas al leerlo, eso es cosa tuya.