Microsoft MarkItDown - herramienta de Python para convertir archivos y documentos de Office a Markdown
(github.com/microsoft)- Herramienta utilitaria para convertir diversos archivos a Markdown
- Formatos compatibles:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- Imágenes (metadatos EXIF y OCR), audio (metadatos EXIF y transcripción de voz)
- HTML (con manejo especial especialmente para Wikipedia) y varios otros formatos basados en texto (csv, json, xml, etc.)
- El uso de la API es sencillo:
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
2 comentarios
Oh, parece que incluso dentro de Microsoft lo quieren convertir en código abierto, ¿no?
Comentarios en Hacker News
Si tienes
uvinstalado, puedes ejecutarlo sobre un archivo con el comandouvx markitdown path-to-file.pdfsin necesidad de instalar nada por separadoTengo experiencia desarrollando en la empresa una función para convertir archivos a texto amigable para LLM
Muchas startups y proyectos open source complican este campo, pero el objetivo final es un proyecto simple, fácil de entender y de desplegar
Para el procesamiento de PDF, sería bueno que hubiera una función para ajustar "cuánto procesamiento quieres"
Para el procesamiento de PDF, podría ser mejor integrar directamente PDFMiner
Se puede usar Pandoc para convertir archivos .docx a Markdown y a otros formatos
Indexé libros de RPG de mesa en formato PDF con diseños visuales complejos y muchas tablas
Me sorprende, pero de manera positiva, que en el README no haya menciones a LLM
Comparto una experiencia de cuando entregué tareas por Slack en una clase de idiomas en línea
Me da curiosidad la comparación con docling
Me pregunto si existe una buena librería para convertir desde Markdown a PDF o .docx
Siendo Microsoft, probablemente pueda dar resultados medio decentes con HTML de Outlook y con .docx