6 puntos por GN⁺ 2025-02-26 | 4 comentarios | Compartir por WhatsApp
  • Explica la estructura de HWPX, un formato de documento abierto, y la manera en que almacena y gestiona los datos
  • Describe las diferencias entre HWPX y el formato HWP tradicional, y analiza los principales componentes del formato HWPX y el papel de cada archivo

Introducción

  • La diferencia más importante es que HWP es un formato binario, mientras que HWPX está compuesto por archivos XML dentro de una estructura ZIP
  • En el caso del formato HWP, los flujos están compuestos en formato de registros, por lo que se requiere un proceso de análisis adicional para extraer los datos
    • En cambio, en el formato HWPX los archivos principales son XML, por lo que la extracción de datos es sencilla

Qué es HWPX

  • Es un formato de documento abierto basado en XML, desarrollado por Hancom, que sigue OWPML, el estándar nacional (KS X 6101)
  • OWPML significa “Open Word-Processor Markup Language”, un lenguaje de marcado de procesador de texto abierto basado en XML
    • Es una norma industrial coreana (KS) establecida el 30 de diciembre de 2011, cuyo desarrollo se llevó a cabo durante cerca de 2 años a través del comité nacional de estandarización de documentos
    • Es un estándar nacional desarrollado conjuntamente con expertos que participan directamente en el desarrollo de estándares nacionales
  • Es un formato de archivo desarrollado para asegurar la apertura, compatibilidad y preservación del formato binario del tipo HWP
    • Para ello, está compuesto como un formato de paquete basado en XML

Estructura del archivo HWPX

  • HWPX es un formato basado en XML con una estructura de archivo ZIP
  • Al descomprimirlo, está compuesto por varios archivos XML y carpetas
  • Componentes principales:
    • mimetype: contiene información del tipo de archivo y actúa como firma para confirmar que se trata del formato HWPX
    • settings.xml: incluye información de elementos de configuración externos, como la posición del cursor
    • version.xml: contiene información sobre la versión del formato de archivo OWPML y el entorno en que se guardó el documento
    • BinData/: almacena archivos binarios incluidos en el documento, como imágenes y objetos OLE
    • Contents/: incluye la información de formato y el contenido principal del documento, y está compuesto por archivos como content.hpf, header.xml y section0.xml
      • content.hpf : lista principal de archivos del paquete. Está definido conforme al estándar PF (Open Packaging Format) y se divide en tres partes: metadata, manifest y spine
      • header.xml : incluye toda la configuración relacionada con el contenido del documento y contiene información de mapeo como formato de caracteres y formato de párrafos
      • section0.xml : almacena el contenido principal por secciones, y cada sección del documento se guarda como un archivo separado
    • META-INF/: incluye los archivos manifest.xml, container.rdf y container.xml; en el caso de documentos cifrados, almacena la información de cifrado de cada archivo
    • Scripts/: la información de scripts guardada en el documento se almacena en los archivos headerScripts y sourceScripts
    • Preview/: contiene imágenes y archivos de texto de vista previa. Es la información que se muestra al abrir el panel de vista previa en el explorador de archivos. En el caso de documentos cifrados, estos archivos no se guardan por seguridad

Para cerrar

  • Antes de aprovechar HWPX, se explica su estructura general y el papel de cada archivo que compone su interior
  • En la siguiente serie se compartirán ejemplos para extraer los datos deseados de documentos HWPX reales
  • Se espera que esto sea útil para aprovechar los componentes y los datos de HWPX

4 comentarios

 
penguin5 2025-02-26

Gracias por el buen artículo. Quisiera que los archivos que se generan en AWS (como reportes) fueran en HWP, pero me ha costado porque faltan referencias relacionadas. Por ahora lo estamos haciendo en Word. Si tiene algún material que pueda servir como referencia, le agradecería que me compartiera el enlace.

 
regentag 2025-02-26

Por lo que escuché antes, parece que hwpx es simplemente el binario de hwp desplegado en XML y luego empaquetado en un ZIP.
Pero al menos se puede leer...

 
molla 2025-02-26

Dicen que eso copió tal cual docx.
De hecho, Microsoft ya había hecho eso cuando pasó de doc a docx.