25 puntos por xguru 2025-03-03 | 2 comentarios | Compartir por WhatsApp
  • Herramienta de código abierto que convierte documentos PDF y JPG/PNG a texto plano manteniendo un orden de lectura natural
  • Diseñada para procesar grandes volúmenes de documentos rápidamente, con soporte para tablas, fórmulas y escritura a mano
  • Entrenada con base en artículos académicos, documentos técnicos y otros materiales de referencia
  • Usa una técnica de prompting propia para mejorar la precisión y reducir las alucinaciones (hallucination)
  • El modelo actual está optimizado para documentos en inglés, y es muy probable que otros idiomas no estén bien soportados
  • Se pueden probar documentos directamente en la página de demo
  • El costo de convertir 1 millón de páginas es de aproximadamente $190 USD, lo que permite una operación económica
  • Requiere una GPU NVIDIA reciente (probado con RTX 4090, L40S, A100 y H100)
  • Probar en la demo en línea (PDF, JPG, PNG)

Códigos incluidos en el toolkit de código abierto

  • Estrategia de prompting basada en ChatGPT 4o (buildsilver.py): incluye técnicas para maximizar el rendimiento del análisis de texto natural
  • Herramienta de evaluación comparativa de pipelines (runeval.py)
  • Función de filtrado de idioma y eliminación de spam SEO (filter.py)
  • Código de fine-tuning para Qwen2-VL y Molmo-O (train.py)
  • Pipeline para procesar grandes volúmenes de PDF (pipeline.py): puede procesar millones de PDF usando Sglang
  • Visor de documentos Dolma (dolmaviewer.py): permite revisar visualmente documentos en formato Dolma convertidos desde PDF

2 comentarios

 
kleinstein 2025-03-06

Por ahora parece que no funciona en Windows...

 
kaydash 2025-03-03

Parece que las bibliotecas que funcionan sin GPU todavía van a ser útiles por ahora.