OlmOCR - herramienta de código abierto para extraer texto de PDF

xguru · 2025-03-03T09:51:15+09:00

Herramienta de código abierto que convierte documentos PDF y JPG/PNG a texto plano manteniendo un orden de lectura natural Diseñada para procesar grandes volúmenes de documentos rápidamente, con soporte para tablas, fórmulas y escritura a mano Entrenada con base en artículos académicos, documentos técnicos y otros materiales de referencia Usa una técnica de prompting propia para mejorar la precisión y reducir las alucinaciones (hallucination) El modelo actual está optimizado para documentos en inglés, y es muy probable que otros idiomas no estén bien soportados Se pueden probar documentos directamente en la página de demo El costo de convertir 1 millón de páginas es de aproximadamente $190 USD, lo que permite una operación económica Requiere una GPU NVIDIA reciente (probado con RTX 4090, L40S, A100 y H100) Probar en la demo en línea (PDF, JPG, PNG) Códigos incluidos en el toolkit de código abierto Estrategia de prompting basada en ChatGPT 4o (buildsilver.py): incluye técnicas para maximizar el rendimiento del análisis de texto natural Herramienta de evaluación comparativa de pipelines (runeval.py) Función de filtrado de idioma y eliminación de spam SEO (filter.py) Código de fine-tuning para Qwen2-VL y Molmo-O (train.py) Pipeline para procesar grandes volúmenes de PDF (pipeline.py): puede procesar millones de PDF usando Sglang Visor de documentos Dolma (dolmaviewer.py): permite revisar visualmente documentos en formato Dolma convertidos desde PDF

(github.com/allenai)

25 puntos por xguru 2025-03-03 | 2 comentarios | Compartir por WhatsApp

Herramienta de código abierto que convierte documentos PDF y JPG/PNG a texto plano manteniendo un orden de lectura natural
Diseñada para procesar grandes volúmenes de documentos rápidamente, con soporte para tablas, fórmulas y escritura a mano
Entrenada con base en artículos académicos, documentos técnicos y otros materiales de referencia
Usa una técnica de prompting propia para mejorar la precisión y reducir las alucinaciones (hallucination)
El modelo actual está optimizado para documentos en inglés, y es muy probable que otros idiomas no estén bien soportados
Se pueden probar documentos directamente en la página de demo
El costo de convertir 1 millón de páginas es de aproximadamente $190 USD, lo que permite una operación económica
Requiere una GPU NVIDIA reciente (probado con RTX 4090, L40S, A100 y H100)
Probar en la demo en línea (PDF, JPG, PNG)

Códigos incluidos en el toolkit de código abierto

Estrategia de prompting basada en ChatGPT 4o (buildsilver.py): incluye técnicas para maximizar el rendimiento del análisis de texto natural
Herramienta de evaluación comparativa de pipelines (runeval.py)
Función de filtrado de idioma y eliminación de spam SEO (filter.py)
Código de fine-tuning para Qwen2-VL y Molmo-O (train.py)
Pipeline para procesar grandes volúmenes de PDF (pipeline.py): puede procesar millones de PDF usando Sglang
Visor de documentos Dolma (dolmaviewer.py): permite revisar visualmente documentos en formato Dolma convertidos desde PDF

2 comentarios

kleinstein 2025-03-06

Por ahora parece que no funciona en Windows...

kaydash 2025-03-03

Parece que las bibliotecas que funcionan sin GPU todavía van a ser útiles por ahora.

OlmOCR - herramienta de código abierto para extraer texto de PDF

Códigos incluidos en el toolkit de código abierto

Lecturas relacionadas

2 comentarios