PDF2JSON - herramienta para extraer PDF a JSON
(github.com)-
Biblioteca open source rápida basada en XPDF y escrita en C
-
Proporciona ejecutables para Windows/Mac/Linux
-
Extrae los textos dentro del PDF con coordenadas x,y, incluyendo las fuentes
Biblioteca open source rápida basada en XPDF y escrita en C
Proporciona ejecutables para Windows/Mac/Linux
Extrae los textos dentro del PDF con coordenadas x,y, incluyendo las fuentes
1 comentarios
También existe una versión en JavaScript de
pdf2jsonque usapdf.js, pero esta utiliza XPDF.https://github.com/mozilla/pdf.js/
https://github.com/modesty/pdf2json
Para las funciones generales de PDF, se puede usar Apache PDFBox.
https://pdfbox.apache.org/
PDFBox es una biblioteca de Java que permite crear PDF, extraer contenido, dividir y combinar, y convertir a imágenes.