10 puntos por calmlake79 2026-02-28 | Aún no hay comentarios. | Compartir por WhatsApp
  • Motor open source basado en Rust para extraer tablas de PDF
  • Las herramientas existentes en Python (Camelot, Tabula, pdfplumber) requieren dependencias de runtime pesadas como OpenCV, Ghostscript y Java, por lo que tienen grandes limitaciones de memoria en entornos serverless
  • TREX funciona como un binario único sin dependencias externas y puede ejecutarse en Cloud Run/Lambda sin OOM con ~30 MB de memoria
  • Integra dos estrategias de parsing: Lattice (basada en líneas de cuadrícula) / Stream (inferencia de coordenadas), y con DL Router puede elegir automáticamente la estrategia óptima por página
  • El DL Router basado en aprendizaje profundo analiza las características de la página y selecciona automáticamente la estrategia de parsing óptima (Lattice/Stream/Blend). Si se recopilan eventos de fallas de extracción en operación y se vuelve a entrenar el modelo ONNX, la precisión puede mejorarse de forma continua
  • Puede usarse de inmediato en Node.js con npm i @dreamyoungs/trex (wrapper de CLI) o npm i @dreamyoungs/trex-node (binding nativo NAPI-RS)
  • También ofrece API REST con Docker y binding para Python, con licencia dual MIT / Apache-2.0

Aún no hay comentarios.

Aún no hay comentarios.