18 puntos por computerphilosopher 2025-09-20 | 5 comentarios | Compartir por WhatsApp
  • El PDF sigue siendo el formato de documento predominante → con limitaciones para el rendimiento de búsqueda de los LLM
  • Experimento de conversión de PDF→Markdown con markitdown, el proyecto open source de Microsoft
  • Limitaciones como fórmulas y diseño descompuestos; mejora de legibilidad con corrección mediante LLM
  • Adecuado para PDF de una sola columna y centrados en texto; los documentos complejos tienen restricciones

5 comentarios

 
ahwjdekf 2025-09-23

Incluso en RAG, este documento PDF siempre causa problemas.

 
ahwjdekf 2025-09-22

El peor formato: PDF

 
kbumsik 2025-09-22

markitdown es conveniente para convertir entre formatos, pero con PDF no debería usarse nunca. D

Ya hay muchos métodos de extracción de documentos que usan LLM multimodales como Gemini, y en los benchmarks también muestran resultados bastante buenos. El problema, claro, es el costo.

Algo como docling también está bien.

 
kaydash 2025-09-22

docling también está bueno

 
lamanus 2025-09-21

markitdown usa https://github.com/pdfminer/pdfminer.six para analizar PDFs, y extrae el texto o las imágenes incrustadas directamente del archivo. Decir que es OCR ya marea un poco...