2 puntos por GN⁺ 2023-09-05 | 1 comentarios | Compartir por WhatsApp
  • Guía para modificar el contenido de texto de un PDF: sin herramientas comerciales como Adobe Acrobat
  • Guía principal para usuarios de Mac: se mencionan herramientas que también pueden usarse en la mayoría de las distribuciones de Linux
  • Almacenamiento comprimido de datos de texto en PDF: descompresión con la herramienta de línea de comandos qpdf
  • Verificación de los datos de texto tras descomprimir: revisar en un editor de texto, junto con la codificación y su asociación con ciertas fuentes
  • La complejidad de la codificación de texto dentro de un PDF: varias codificaciones posibles, incluidas codificaciones personalizadas integradas en el propio archivo
  • Extracción de información de codificación: uso de la herramienta de línea de comandos pdffonts
  • Se ofrece un ejemplo de cómo identificar la fuente relacionada con una codificación embebida y encontrar la tabla de codificación embebida de esa fuente
  • Tabla de codificación: mapea puntos de codificación personalizados a puntos Unicode
  • Conversión de la tabla con Python: convertir la tabla en un diccionario y escribir funciones de codificación y decodificación
  • Reemplazo del texto original mediante estas funciones: permite sustituir el texto original por texto de reemplazo con codificación personalizada

1 comentarios

 
GN⁺ 2023-09-05
Opiniones de Hacker News
  • La especificación de PDF es compleja y admite varias funciones, incluidos los modos de fusión de capas de Photoshop y contenido adicional para modificar contenido previo.
  • PDF incluye cifrado basado en contraseña con contraseñas distintas de "propietario" y "usuario", además de opciones para impedir la impresión o la copia de texto.
  • A pesar de su naturaleza compleja, PDF no es un formato binario intocable, sino un grafo de objetos de varios tipos bien descrito en la especificación oficial.
  • Herramientas como mutool pueden usarse para convertir un PDF a una versión sin datos comprimidos, lo que facilita entenderlo y modificarlo.
  • PDF admite diversas funciones como objetos 3D, JavaScript, películas de objetos Flash incrustados, anotaciones invisibles y widgets que usan un subconjunto de XHTML y CSS.
  • Sin embargo, PDF es principalmente un formato de descripción de páginas y representa la estructura del documento, no la visualización de la página. Por lo tanto, se recomienda editar el documento del cual se generó el PDF.
  • PDF existe sobre todo para mostrar o imprimir contenido con total fidelidad, por lo que se parece más a un formato de imagen que ocupa menos bytes que una imagen real.
  • Herramientas como qpdf y RUPS pueden usarse para comprender y modificar la estructura de un PDF.
  • Firefox ofrece una manera sencilla de firmar PDFs.
  • La especificación de PDF es vasta y compleja; incluso después de estudiarla durante años, uno puede sentir que apenas ha arañado la superficie.