Marker - código abierto para convertir PDF a Markdown
(github.com/VikParuchuri)- Convierte PDF, EPUB y MOBI a Markdown
- Convierte más de 10 veces más rápido y con mayor precisión que Nougat, creado por Facebook Research
- Optimizado para formatos de libros y artículos académicos
- Elimina encabezados, pies de página y otros artefactos
- Convierte la mayoría de las fórmulas a LaTeX
- Da formato a bloques de código y tablas
- Soporte multilingüe
6 comentarios
Vaya....
Parece que se vienen tiempos duros para las editoriales del mundo angloparlante.
Hay varias editoriales, sobre todo de tecnología, que incluso entregan el archivo PDF al comprar el libro, así que me da curiosidad ver cómo van a resolver esto.
¿El PDF tiene que estar ya con OCR?? Definitivamente tengo que probarlo ahora mismo.
Por lo que vi solo en el README, parece que también realiza tareas de OCR... aunque puede que lo haya leído mal...
Sí... usé una expresión algo difícil para quienes no dominamos el inglés
¿Extraer texto, con OCR si es necesario??
> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.
Como está enfocado en la velocidad, parece muy probable que no sea adecuado para PDFs que requieran una gran cantidad de OCR.
Sí hace OCR, pero creo que hay que entenderlo como que no está garantizado.
> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.
Además, no es compatible con CJK.
¡Gracias!