TREX - motor de extracción de tablas PDF hecho en Rust (mejora la precisión con aprendizaje profundo

calmlake79 · 2026-02-28T23:52:42+09:00

Motor open source basado en Rust para extraer tablas de PDF Las herramientas existentes en Python (Camelot, Tabula, pdfplumber) requieren dependencias de runtime pesadas como OpenCV, Ghostscript y Java, por lo que tienen grandes limitaciones de memoria en entornos serverless TREX funciona como un binario único sin dependencias externas y puede ejecutarse en Cloud Run/Lambda sin OOM con ~30 MB de memoria Integra dos estrategias de parsing: Lattice (basada en líneas de cuadrícula) / Stream (inferencia de coordenadas), y con DL Router puede elegir automáticamente la estrategia óptima por página El DL Router basado en aprendizaje profundo analiza las características de la página y selecciona automáticamente la estrategia de parsing óptima (Lattice/Stream/Blend). Si se recopilan eventos de fallas de extracción en operación y se vuelve a entrenar el modelo ONNX, la precisión puede mejorarse de forma continua Puede usarse de inmediato en Node.js con npm i @dreamyoungs/trex (wrapper de CLI) o npm i @dreamyoungs/trex-node (binding nativo NAPI-RS) También ofrece API REST con Docker y binding para Python, con licencia dual MIT / Apache-2.0

Motor open source basado en Rust para extraer tablas de PDF
Las herramientas existentes en Python (Camelot, Tabula, pdfplumber) requieren dependencias de runtime pesadas como OpenCV, Ghostscript y Java, por lo que tienen grandes limitaciones de memoria en entornos serverless
TREX funciona como un binario único sin dependencias externas y puede ejecutarse en Cloud Run/Lambda sin OOM con ~30 MB de memoria
Integra dos estrategias de parsing: Lattice (basada en líneas de cuadrícula) / Stream (inferencia de coordenadas), y con DL Router puede elegir automáticamente la estrategia óptima por página
El DL Router basado en aprendizaje profundo analiza las características de la página y selecciona automáticamente la estrategia de parsing óptima (Lattice/Stream/Blend). Si se recopilan eventos de fallas de extracción en operación y se vuelve a entrenar el modelo ONNX, la precisión puede mejorarse de forma continua
Puede usarse de inmediato en Node.js con npm i @dreamyoungs/trex (wrapper de CLI) o npm i @dreamyoungs/trex-node (binding nativo NAPI-RS)
También ofrece API REST con Docker y binding para Python, con licencia dual MIT / Apache-2.0

TREX - motor de extracción de tablas PDF hecho en Rust (mejora la precisión con aprendizaje profundo)

Aún no hay comentarios.

TREX - motor de extracción de tablas PDF hecho en Rust (mejora la precisión con aprendizaje profundo)

Lecturas relacionadas

Aún no hay comentarios.