23 puntos por GN⁺ 2025-02-25 | 13 comentarios | Compartir por WhatsApp

Introducción

  • En la sociedad moderna, la tecnología de inteligencia artificial está impulsando la innovación en diversos campos, y la importancia de los datos sigue aumentando.
  • El formato HWP tiene elementos que lo hacen favorable para el entrenamiento de IA.
    • Además de texto simple, está compuesto por diversos elementos como imágenes, tablas y gráficos, lo que proporciona información abundante.
    • Está estructurado en diversos formatos como títulos, párrafos y tablas, lo que puede ayudar a los modelos de IA a comprender y analizar documentos.
  • En este artículo veremos la estructura del formato HWP y cómo almacena la información de los documentos.

¿Qué es el formato HWP?

  • El formato HWP es un formato de documento desarrollado por Hancom, presentado por primera vez en 1997.
  • Este formato está compuesto como CFB (Compound File Binary File Format) y utiliza una forma de almacenar múltiples flujos de datos en un solo archivo.
  • Un archivo HWP incluye información como File Header, DocInfo, DocOptions, BodyText, Script, HwpSummaryInformation, PrvImage y PrvText.

1. File Header

  • El encabezado de archivo de un archivo HWP contiene información de reconocimiento de documentos Han/Geul.
  • Incluye información de firma, versión del documento e información de reconocimiento del archivo, y con ello se determina el tipo de documento del archivo HWP.

2. DocInfo

  • Es el flujo que contiene información común usada en el documento, como fuentes, propiedades de caracteres y propiedades de párrafo.
  • DocInfo se almacena comprimido con zlib, y al descomprimirlo se pueden verificar los datos originales.
  • Varios tipos de información se almacenan en formato de registros.

3. DocOptions

  • Información como documentos vinculados, documentos para distribución y certificados digitales se almacena como flujo.

4. BodyText (Section)

  • Aquí se almacena el contenido real correspondiente al cuerpo principal del documento.
  • Está compuesto por múltiples flujos Section según la cantidad de secciones del cuerpo.

5. Script

  • Es el almacenamiento donde se registra la información de scripts definida en la función de macros de script.

6. HwpSummaryInformation

  • Aquí se almacena la información resumida del documento y está estructurada con el formato PropertySet de Microsoft.

7. PrvImage

  • Es la imagen de vista previa del documento, donde se almacena la imagen de la primera página.

8. PrvText

  • Es el texto de vista previa del documento, donde el contenido de la primera página se almacena como cadena Unicode.

Cierre

  • El formato HWP se guarda en formato binario, por lo que es difícil de leer directamente por personas, y fue diseñado para que solo pueda abrirse y editarse con software específico.
  • En cambio, el formato HWPX, basado en Open XML, está diseñado para que las personas puedan entender fácilmente el contenido, ya que los datos están estructurados.
  • En la próxima entrega veremos de qué manera el formato HWPX almacena la información de forma diferenciada frente al formato HWP.

13 comentarios

 
hahnlee 2025-02-25

Soy hahnlee, quien desarrolló hwp.js (https://github.com/hahnlee/hwp.js) :)
Cuando desarrollé ese proyecto, y aún ahora, la verdad es que no me gusta mucho HWP. Especialmente en cuanto a su nivel de apertura.

Sin embargo, hasta cierto punto sí coincido con la parte de que "el formato HWP tiene elementos favorables para el entrenamiento de IA".

Hablando desde mi experiencia al construir un RAG, en Corea se usan muchas tablas, en particular. En el caso de PDF, como es un formato pensado con la impresión en mente, no existen las "tablas" como tal dentro del PDF. Solo hay líneas y texto.

Por eso, extraer datos de información tabular compleja era difícil cuando se trabajaba con documentos PDF. Especialmente cuando una tabla se extendía a la página siguiente.

Dicho de forma aproximada, si HWP se siente como una especie de documento de texto enriquecido, PDF se sentía más como un documento txt. Claro, esto hablando solo de las "tablas".

Pero si la pregunta es si eso es una ventaja distintiva del formato HWP, yo diría que no. Para cosas simples, Markdown es suficiente, y si es algo más complejo, creo que es mejor definirlo en HTML.

Y, en definitiva, docx y odt también tienen la misma ventaja.

 
iolothebard 2025-02-25

Después de que Netscape quedó completamente aplastado por IE, soltaron el código fuente y demás, poniéndose a reaccionar tarde con mucho empeño.

 
riki3 2025-02-25

No me gusta HWP y no puedo hablar bien de los productos de la actual empresa Hancom, pero creo que en el pasado el producto en sí era un software mucho mejor que Word.

 
kuthia 2025-02-26

Yo también creo que fue un software excelente, al menos hasta que salió Hangul 97.

 
jwh926 2025-02-25

¿Qué es esto?

 
carnoxen 2025-02-25

Un ser desafortunado que no logró convertirse en un estándar mundial

 
wook3910 2025-02-25

Aprendí a usar el procesador de texto con Han/Geul, pero ahora creo que es un vestigio que debería desaparecer por el bien del desarrollo de Corea del Sur.

 
regentag 2025-02-26

En comparación con MS Word o Libre Office, Hancom Hangul me resultaba mucho más cómodo para crear documentos con el formato que quería. Y para distribuirlos, simplemente se puede usar PDF.

Claro, también puede ser que lo sienta así porque estoy más acostumbrado a Hangul.

 
yeorinhieut 2025-02-25

"El formato HWP tiene elementos que son favorables para el entrenamiento de IA"

¿De verdad es cierto esto..?

 
regentag 2025-02-26

Quizá sería mejor que el entrenamiento de la IA se enfocara en los PDF, y que para HWP simplemente hicieran bien un conversor a PDF jaja

 
iamchp 2025-02-25

Yo también leí esa parte y me pareció extraña, pero cuando vi el dominio original lo entendí jajaja

 
jic5760 2025-02-25

Ajá... ya lo entiendo... jajajajaja

 
doolayer 2025-02-25

La verdad, no me genera mucha identificación. Aunque bueno, si fuera hwpx, como también se menciona en el texto...