- El PDF sigue siendo el formato de documento predominante → con limitaciones para el rendimiento de búsqueda de los LLM
- Experimento de conversión de PDF→Markdown con markitdown, el proyecto open source de Microsoft
- Limitaciones como fórmulas y diseño descompuestos; mejora de legibilidad con corrección mediante LLM
- Adecuado para PDF de una sola columna y centrados en texto; los documentos complejos tienen restricciones
5 comentarios
Incluso en RAG, este documento PDF siempre causa problemas.
El peor formato: PDF
markitdownes conveniente para convertir entre formatos, pero con PDF no debería usarse nunca. DYa hay muchos métodos de extracción de documentos que usan LLM multimodales como Gemini, y en los benchmarks también muestran resultados bastante buenos. El problema, claro, es el costo.
Algo como
doclingtambién está bien.docling también está bueno
markitdown usa https://github.com/pdfminer/pdfminer.six para analizar PDFs, y extrae el texto o las imágenes incrustadas directamente del archivo. Decir que es OCR ya marea un poco...