Image-Table-OCR - convertir imágenes de tablas a CSV
(github.com)-
Proyecto de código abierto que extrae datos de tablas desde PDF o imágenes y los convierte en CSV
-
Código en Python + OpenCV + Tesseract
-
Las imágenes dentro de un PDF se pueden extraer todas como archivos de imagen individuales usando Poppler + ImageMagick y procesarse de una vez (script por lotes)
1 comentarios
Si la tabla solo tiene números, parece más práctico porque con el código de abajo incluso puede detectar el área y extraerla.
image2csv - código abierto para convertir imágenes de tablas numéricas a CSV
https://github.com/artperrin/image2csv
Código con Python + OpenCV + Tesseract
Detección automática de la cuadrícula (tabla)
Al reconocer manualmente, selección del área con el mouse en Windows