- Permite que ingenieros de analítica conecten distintos silos de datos para crear una vista unificada
→ una herramienta de ML sin código para la unificación de datos
- ¿Por qué es necesario?
→ en los datos reales existen múltiples registros por cada cliente
→ cada registro está distribuido en uno o varios sistemas, así que cuando los datos crecen se vuelve difícil analizar a los clientes
→ en ELT, la T requiere mucho esfuerzo, y herramientas como dbt pueden manejar esto con éxito
→ se necesita una forma rápida y escalable de "crear una Single Source of Truth" para los principales objetos de negocio antes de extraer o cargar datos
- Casos útiles
→ crear una vista unificada y confiable de clientes que están en múltiples sistemas
→ verificación de entidades a gran escala como AML/KYC
→ deduplicación y calidad de datos
→ consolidación de silos de datos
→ enriquecimiento de datos de fuentes externas
- Fuentes compatibles
→ Snowflake, Cassandra, S3, Azure, Elastic, las principales RDBMS y fuentes de datos compatibles con Spark
→ también soporta archivos como Parquet, Avro, JSON, XLSX, CSV y TSV
Aún no hay comentarios.