Launch HN: Trellis – flujo de trabajo con IA para datos no estructurados

(news.ycombinator.com)

6 puntos por GN⁺ 2024-08-15 | 1 comentarios | Compartir por WhatsApp

Trellis es una herramienta ETL (Extract, Transform, Load) impulsada por IA para datos no estructurados
Convierte llamadas telefónicas, PDF y contenidos de chat en formato SQL estructurado según esquemas definidos por el usuario en lenguaje natural
Ayuda a los equipos de datos y operaciones a automatizar la captura manual de datos y procesar datos complejos con consultas SQL

Antecedentes del desarrollo de Trellis

Después de conocerse en el laboratorio de IA de Stanford, colaboraron con equipos de datos de varias grandes empresas y detectaron el problema de los datos no estructurados
El 80% de los datos empresariales está compuesto por datos no estructurados, y es difícil procesarlos con las plataformas existentes
Por ejemplo, un importante banco comercial no podía mejorar su modelo de riesgo crediticio debido a datos importantes atrapados en PDF y correos electrónicos
Con base en su investigación en IA, desarrollaron una solución ETL impulsada por IA que transforma datos no estructurados en tablas ajustadas a un esquema

Desafíos técnicos

Soporte para documentos complejos: usa map-reduce basado en LLM para procesar documentos largos y modelos de visión para extraer tablas y layouts
Enrutamiento de modelos: selecciona el mejor modelo para cada transformación para optimizar costo y velocidad
Validación de datos y garantía de esquema: asegura la precisión mediante enlaces de referencia y detección de anomalías

Casos de uso diversos

Servicios financieros: procesa documentos complejos (bonos, calificaciones crediticias, etc.) en formato estructurado para acelerar el underwriting y automatizar el procesamiento de préstamos
Soporte al cliente y operaciones de back office: mejora la velocidad de onboarding y garantiza el cumplimiento de SOP mediante el mapeo de documentos entre distintos esquemas y sistemas ERP
Preprocesamiento y recolección de datos: cubre necesidades de preprocesamiento de datos y recolección de datos para RAG dentro de pipelines ETL

Resumen de GN⁺

Trellis es una herramienta ETL impulsada por IA que convierte datos no estructurados en formato SQL estructurado, automatizando el trabajo manual de los equipos de datos y operaciones
Resuelve desafíos técnicos como el procesamiento de documentos complejos, el enrutamiento de modelos y la validación de datos
Puede ser útil en diversas industrias como servicios financieros, soporte al cliente y preprocesamiento de datos
Será especialmente útil para empresas que tienen dificultades para procesar datos no estructurados
Otros proyectos con funciones similares incluyen Alteryx y Talend

1 comentarios

GN⁺ 2024-08-15

Comentarios en Hacker News

Está desarrollando un paquete de Python de código abierto y ofrece una funcionalidad similar
- Compartió un ejemplo de demo con correos electrónicos de Enron
En grandes bancos comerciales no pudieron resolver los datos atrapados en PDFs y correos electrónicos, por lo que no lograron mejorar los modelos de riesgo crediticio
- Resolver este problema genera un gran valor
Trabajó en un proyecto relacionado en SoundTrace
- Necesitaban extraer perfectamente los datos de audiogramas en PDF de un nuevo cliente
- Mediante un pipeline, extraían texto y tablas del PDF con OCR y luego los parseaban directamente con un LLM
- Enviaban los gráficos de audiogramas a una convnet y parseaban las tablas de forma programática
- Validaban los resultados con Claude Sonnet y, si no coincidían, hacían una revisión manual
- La precisión llegó casi al 100%
Trabajó en Instabase y la capacidad de procesar PDFs y escaneos de documentos es importante
Felicita el lanzamiento de Trellis y señala que los edge cases deben acercarse casi al 0%
- Es un servicio que toda organización necesita y, si tiene éxito, tendrá muchos clientes
Pregunta sobre la competencia y las diferencias frente a Roe AI
Tiene curiosidad por cómo validaron la precisión de los datos
En un proyecto personal está haciendo algo similar con TypeChat, Zod y Unstructured
Usó function calling de OpenAI para extraer campos de miles de documentos escaneados
- La recuperación de algunos campos no fue buena en distintos formatos de documentos de entrada
- Experimentó con esquemas JSON para extraer la información óptima
- En documentos largos, tuvo que decidir si enviar el documento completo o solo las partes relevantes
- La calidad del OCR no era buena
- La principal innovación es permitir que usuarios no técnicos puedan repetir iterativamente el punto #2
Felicita el lanzamiento aunque aún no se haya resuelto el gran problema
- Los clientes con grandes problemas y presupuesto son los más desatendidos
- Se ofrecen soluciones personalizadas para cada cliente mediante onboarding/integración al estilo Palantir
- Una precisión superior al 99% y la intervención humana resultan efectivas
- Mejorar del 95% al 99% puede marcar una gran diferencia
- Deberían enfatizar “extracción con precisión de 99%+” en lugar de “workflow impulsado por IA”

Launch HN: Trellis – flujo de trabajo con IA para datos no estructurados

Antecedentes del desarrollo de Trellis

Desafíos técnicos

Casos de uso diversos

Resumen de GN⁺

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News