Launch HN: Trellis – flujo de trabajo con IA para datos no estructurados
(news.ycombinator.com)- Trellis es una herramienta ETL (Extract, Transform, Load) impulsada por IA para datos no estructurados
- Convierte llamadas telefónicas, PDF y contenidos de chat en formato SQL estructurado según esquemas definidos por el usuario en lenguaje natural
- Ayuda a los equipos de datos y operaciones a automatizar la captura manual de datos y procesar datos complejos con consultas SQL
Antecedentes del desarrollo de Trellis
- Después de conocerse en el laboratorio de IA de Stanford, colaboraron con equipos de datos de varias grandes empresas y detectaron el problema de los datos no estructurados
- El 80% de los datos empresariales está compuesto por datos no estructurados, y es difícil procesarlos con las plataformas existentes
- Por ejemplo, un importante banco comercial no podía mejorar su modelo de riesgo crediticio debido a datos importantes atrapados en PDF y correos electrónicos
- Con base en su investigación en IA, desarrollaron una solución ETL impulsada por IA que transforma datos no estructurados en tablas ajustadas a un esquema
Desafíos técnicos
- Soporte para documentos complejos: usa map-reduce basado en LLM para procesar documentos largos y modelos de visión para extraer tablas y layouts
- Enrutamiento de modelos: selecciona el mejor modelo para cada transformación para optimizar costo y velocidad
- Validación de datos y garantía de esquema: asegura la precisión mediante enlaces de referencia y detección de anomalías
Casos de uso diversos
- Servicios financieros: procesa documentos complejos (bonos, calificaciones crediticias, etc.) en formato estructurado para acelerar el underwriting y automatizar el procesamiento de préstamos
- Soporte al cliente y operaciones de back office: mejora la velocidad de onboarding y garantiza el cumplimiento de SOP mediante el mapeo de documentos entre distintos esquemas y sistemas ERP
- Preprocesamiento y recolección de datos: cubre necesidades de preprocesamiento de datos y recolección de datos para RAG dentro de pipelines ETL
Resumen de GN⁺
- Trellis es una herramienta ETL impulsada por IA que convierte datos no estructurados en formato SQL estructurado, automatizando el trabajo manual de los equipos de datos y operaciones
- Resuelve desafíos técnicos como el procesamiento de documentos complejos, el enrutamiento de modelos y la validación de datos
- Puede ser útil en diversas industrias como servicios financieros, soporte al cliente y preprocesamiento de datos
- Será especialmente útil para empresas que tienen dificultades para procesar datos no estructurados
- Otros proyectos con funciones similares incluyen Alteryx y Talend
1 comentarios
Comentarios en Hacker News
Está desarrollando un paquete de Python de código abierto y ofrece una funcionalidad similar
En grandes bancos comerciales no pudieron resolver los datos atrapados en PDFs y correos electrónicos, por lo que no lograron mejorar los modelos de riesgo crediticio
Trabajó en un proyecto relacionado en SoundTrace
Trabajó en Instabase y la capacidad de procesar PDFs y escaneos de documentos es importante
Felicita el lanzamiento de Trellis y señala que los edge cases deben acercarse casi al 0%
Pregunta sobre la competencia y las diferencias frente a Roe AI
Tiene curiosidad por cómo validaron la precisión de los datos
En un proyecto personal está haciendo algo similar con TypeChat, Zod y Unstructured
Usó function calling de OpenAI para extraer campos de miles de documentos escaneados
Felicita el lanzamiento aunque aún no se haya resuelto el gran problema