Marker - código abierto para convertir PDF a Markdown

xguru · 2023-12-04T10:04:01+09:00

Convierte PDF, EPUB y MOBI a Markdown Convierte más de 10 veces más rápido y con mayor precisión que Nougat, creado por Facebook Research Optimizado para formatos de libros y artículos académicos Elimina encabezados, pies de página y otros artefactos Convierte la mayoría de las fórmulas a LaTeX Da formato a bloques de código y tablas Soporte multilingüe

(github.com/VikParuchuri)

37 puntos por xguru 2023-12-04 | 6 comentarios | Compartir por WhatsApp

Convierte PDF, EPUB y MOBI a Markdown
Convierte más de 10 veces más rápido y con mayor precisión que Nougat, creado por Facebook Research
Optimizado para formatos de libros y artículos académicos
Elimina encabezados, pies de página y otros artefactos
Convierte la mayoría de las fórmulas a LaTeX
Da formato a bloques de código y tablas
Soporte multilingüe

6 comentarios

bus710 2023-12-05

Vaya....
Parece que se vienen tiempos duros para las editoriales del mundo angloparlante.
Hay varias editoriales, sobre todo de tecnología, que incluso entregan el archivo PDF al comprar el libro, así que me da curiosidad ver cómo van a resolver esto.

hero512 2023-12-04

¿El PDF tiene que estar ya con OCR?? Definitivamente tengo que probarlo ahora mismo.

limc132 2023-12-04

Por lo que vi solo en el README, parece que también realiza tareas de OCR... aunque puede que lo haya leído mal...

hero512 2023-12-04

Sí... usé una expresión algo difícil para quienes no dominamos el inglés
¿Extraer texto, con OCR si es necesario??

say8425 2023-12-04

This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.

Como está enfocado en la velocidad, parece muy probable que no sea adecuado para PDFs que requieran una gran cantidad de OCR.
Sí hace OCR, pero creo que hay que entenderlo como que no está garantizado.

Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.

Además, no es compatible con CJK.

hero512 2023-12-04

¡Gracias!

Marker - código abierto para convertir PDF a Markdown

Lecturas relacionadas

6 comentarios