13 puntos por xguru 2021-03-12 | 1 comentarios | Compartir por WhatsApp
  • Proyecto de código abierto que extrae datos de tablas desde PDF o imágenes y los convierte en CSV

  • Código en Python + OpenCV + Tesseract

  • Las imágenes dentro de un PDF se pueden extraer todas como archivos de imagen individuales usando Poppler + ImageMagick y procesarse de una vez (script por lotes)

1 comentarios

 
xguru 2021-03-12

Si la tabla solo tiene números, parece más práctico porque con el código de abajo incluso puede detectar el área y extraerla.

image2csv - código abierto para convertir imágenes de tablas numéricas a CSV

https://github.com/artperrin/image2csv

  • Código con Python + OpenCV + Tesseract

  • Detección automática de la cuadrícula (tabla)

  • Al reconocer manualmente, selección del área con el mouse en Windows