- Motor open source basado en Rust para extraer tablas de PDF
- Las herramientas existentes en Python (Camelot, Tabula, pdfplumber) requieren dependencias de runtime pesadas como OpenCV, Ghostscript y Java, por lo que tienen grandes limitaciones de memoria en entornos serverless
- TREX funciona como un binario único sin dependencias externas y puede ejecutarse en Cloud Run/Lambda sin OOM con ~30 MB de memoria
- Integra dos estrategias de parsing: Lattice (basada en líneas de cuadrícula) / Stream (inferencia de coordenadas), y con DL Router puede elegir automáticamente la estrategia óptima por página
- El DL Router basado en aprendizaje profundo analiza las características de la página y selecciona automáticamente la estrategia de parsing óptima (Lattice/Stream/Blend). Si se recopilan eventos de fallas de extracción en operación y se vuelve a entrenar el modelo ONNX, la precisión puede mejorarse de forma continua
- Puede usarse de inmediato en Node.js con
npm i @dreamyoungs/trex (wrapper de CLI) o npm i @dreamyoungs/trex-node (binding nativo NAPI-RS)
- También ofrece API REST con Docker y binding para Python, con licencia dual MIT / Apache-2.0
Aún no hay comentarios.