- Herramienta de código abierto que convierte documentos PDF y JPG/PNG a texto plano manteniendo un orden de lectura natural
- Diseñada para procesar grandes volúmenes de documentos rápidamente, con soporte para tablas, fórmulas y escritura a mano
- Entrenada con base en artículos académicos, documentos técnicos y otros materiales de referencia
- Usa una técnica de prompting propia para mejorar la precisión y reducir las alucinaciones (
hallucination)
- El modelo actual está optimizado para documentos en inglés, y es muy probable que otros idiomas no estén bien soportados
- Se pueden probar documentos directamente en la página de demo
- El costo de convertir 1 millón de páginas es de aproximadamente $190 USD, lo que permite una operación económica
- Requiere una GPU NVIDIA reciente (probado con RTX 4090, L40S, A100 y H100)
- Probar en la demo en línea (PDF, JPG, PNG)
Códigos incluidos en el toolkit de código abierto
- Estrategia de prompting basada en ChatGPT 4o (
buildsilver.py): incluye técnicas para maximizar el rendimiento del análisis de texto natural
- Herramienta de evaluación comparativa de pipelines (
runeval.py)
- Función de filtrado de idioma y eliminación de spam SEO (
filter.py)
- Código de fine-tuning para Qwen2-VL y Molmo-O (
train.py)
- Pipeline para procesar grandes volúmenes de PDF (
pipeline.py): puede procesar millones de PDF usando Sglang
- Visor de documentos Dolma (
dolmaviewer.py): permite revisar visualmente documentos en formato Dolma convertidos desde PDF
2 comentarios
Por ahora parece que no funciona en Windows...
Parece que las bibliotecas que funcionan sin GPU todavía van a ser útiles por ahora.