- Explica la estructura de HWPX, un formato de documento abierto, y la manera en que almacena y gestiona los datos
- Describe las diferencias entre HWPX y el formato HWP tradicional, y analiza los principales componentes del formato HWPX y el papel de cada archivo
Introducción
- La diferencia más importante es que HWP es un formato binario, mientras que HWPX está compuesto por archivos XML dentro de una estructura ZIP
- En el caso del formato HWP, los flujos están compuestos en formato de registros, por lo que se requiere un proceso de análisis adicional para extraer los datos
- En cambio, en el formato HWPX los archivos principales son XML, por lo que la extracción de datos es sencilla
Qué es HWPX
- Es un formato de documento abierto basado en XML, desarrollado por Hancom, que sigue OWPML, el estándar nacional (KS X 6101)
- OWPML significa “Open Word-Processor Markup Language”, un lenguaje de marcado de procesador de texto abierto basado en XML
- Es una norma industrial coreana (KS) establecida el 30 de diciembre de 2011, cuyo desarrollo se llevó a cabo durante cerca de 2 años a través del comité nacional de estandarización de documentos
- Es un estándar nacional desarrollado conjuntamente con expertos que participan directamente en el desarrollo de estándares nacionales
- Es un formato de archivo desarrollado para asegurar la apertura, compatibilidad y preservación del formato binario del tipo HWP
- Para ello, está compuesto como un formato de paquete basado en XML
Estructura del archivo HWPX
- HWPX es un formato basado en XML con una estructura de archivo ZIP
- Al descomprimirlo, está compuesto por varios archivos XML y carpetas
- Componentes principales:
mimetype: contiene información del tipo de archivo y actúa como firma para confirmar que se trata del formato HWPX
settings.xml: incluye información de elementos de configuración externos, como la posición del cursor
version.xml: contiene información sobre la versión del formato de archivo OWPML y el entorno en que se guardó el documento
BinData/: almacena archivos binarios incluidos en el documento, como imágenes y objetos OLE
Contents/: incluye la información de formato y el contenido principal del documento, y está compuesto por archivos como content.hpf, header.xml y section0.xml
content.hpf : lista principal de archivos del paquete. Está definido conforme al estándar PF (Open Packaging Format) y se divide en tres partes: metadata, manifest y spine
header.xml : incluye toda la configuración relacionada con el contenido del documento y contiene información de mapeo como formato de caracteres y formato de párrafos
section0.xml : almacena el contenido principal por secciones, y cada sección del documento se guarda como un archivo separado
META-INF/: incluye los archivos manifest.xml, container.rdf y container.xml; en el caso de documentos cifrados, almacena la información de cifrado de cada archivo
Scripts/: la información de scripts guardada en el documento se almacena en los archivos headerScripts y sourceScripts
Preview/: contiene imágenes y archivos de texto de vista previa. Es la información que se muestra al abrir el panel de vista previa en el explorador de archivos. En el caso de documentos cifrados, estos archivos no se guardan por seguridad
Para cerrar
- Antes de aprovechar HWPX, se explica su estructura general y el papel de cada archivo que compone su interior
- En la siguiente serie se compartirán ejemplos para extraer los datos deseados de documentos HWPX reales
- Se espera que esto sea útil para aprovechar los componentes y los datos de HWPX
4 comentarios
Gracias por el buen artículo. Quisiera que los archivos que se generan en AWS (como reportes) fueran en HWP, pero me ha costado porque faltan referencias relacionadas. Por ahora lo estamos haciendo en Word. Si tiene algún material que pueda servir como referencia, le agradecería que me compartiera el enlace.
Por lo que escuché antes, parece que
hwpxes simplemente el binario dehwpdesplegado en XML y luego empaquetado en un ZIP.Pero al menos se puede leer...
Dicen que eso copió tal cual
docx.De hecho, Microsoft ya había hecho eso cuando pasó de
docadocx.Formato de archivo de documentos de Han/geul: explorando la estructura del formato HWP