2 puntos por GN⁺ 2025-02-11 | 1 comentarios | Compartir por WhatsApp
  • Biblioteca de Python para inspeccionar y transformar la estructura interna de archivos PDF
  • Implementa con enfoque principal el capítulo 7 ("Syntax") del estándar PDF
  • Gestiona la estructura del documento a nivel de bytes, lo que permite realizar diversas tareas de transformación como acceso a metadatos, rotación y más

Características principales

  • Proporciona un toolkit de API para operaciones de lectura/escritura de PDF
  • Incluye soporte CLI (Command Line Interface) para usar funciones específicas desde la terminal o el navegador
  • Es una biblioteca ligera sin dependencias, escrita en Python puro
  • Diseñada con énfasis en la simplicidad y la inmutabilidad
  • Soporta edición no destructiva permitida por el estándar PDF y, de forma predeterminada, agrega actualizaciones incrementales al final del archivo original
    • También es posible revertir todo el historial de cambios o consolidarlo en una sola versión

Demo en vivo

  • Ofrece un demo en vivo para explorar en el navegador la salida HTML estática de PDFSyntax.
  • El demo corresponde a la salida generada para el archivo de ejemplo Simple Text String de la especificación PDF.

1 comentarios

 
GN⁺ 2025-02-11
Comentarios en Hacker News

Resumen de comentarios de Hacker News

  • Alguien comentó que en el pasado trabajó extrayendo datos de PDFs. En ese entonces no existía la tecnología de IA, pero ahora podría haber posibilidades de extraer datos usando LLMs.

  • Otra opinión señala que habría usado mucho una herramienta de extracción de datos de PDF en un trabajo anterior. La herramienta ideal debería funcionar dejando caer el archivo y haciendo todo localmente.

  • Un comentario menciona que ha usado la herramienta gratuita iText RUPS para depurar PDFs y espera que la nueva herramienta tenga funciones aún más potentes.

  • Alguien se pregunta por qué el PDF no ha sido reemplazado por formatos como XPS, DjVu o XHTML (EPUB). Sostiene que se necesita un formato de documento simple que permita hipervínculos dentro de la página, cambio de tamaño de fuente y otras funciones.

  • Una opinión dice que sería útil para tareas forenses y para encontrar marcas de agua.

  • Un comentario sugiere que sería bueno poder ver todos los bytes del PDF. Señala que no se ven endobj ni xref.

  • Alguien menciona que hubo un proyecto similar en GitHub y que recuerda un ejemplo relacionado con TCP/IP.

  • Una opinión dice que sería bueno usarlo como biblioteca para navegador. Le pareció impresionante la función de arrastrar y soltar archivos para ver su interior.

  • Un comentario se pregunta si la herramienta de UI es una biblioteca. Valora que tenga una interfaz simple y bien resuelta con CSS.

  • Alguien comenta que está buscando una herramienta que explique contenido de formatos de medios visuales a nivel de bytes. Pregunta si existe alguna que pueda manejar formatos como JPEG, PNG, AVI y MP4.