8 puntos por xguru 2021-09-16 | Aún no hay comentarios. | Compartir por WhatsApp
  • Permite que ingenieros de analítica conecten distintos silos de datos para crear una vista unificada

→ una herramienta de ML sin código para la unificación de datos

  • ¿Por qué es necesario?

→ en los datos reales existen múltiples registros por cada cliente

→ cada registro está distribuido en uno o varios sistemas, así que cuando los datos crecen se vuelve difícil analizar a los clientes

→ en ELT, la T requiere mucho esfuerzo, y herramientas como dbt pueden manejar esto con éxito

→ se necesita una forma rápida y escalable de "crear una Single Source of Truth" para los principales objetos de negocio antes de extraer o cargar datos

  • Casos útiles

→ crear una vista unificada y confiable de clientes que están en múltiples sistemas

→ verificación de entidades a gran escala como AML/KYC

→ deduplicación y calidad de datos

→ consolidación de silos de datos

→ enriquecimiento de datos de fuentes externas

  • Fuentes compatibles

→ Snowflake, Cassandra, S3, Azure, Elastic, las principales RDBMS y fuentes de datos compatibles con Spark

→ también soporta archivos como Parquet, Avro, JSON, XLSX, CSV y TSV

Aún no hay comentarios.

Aún no hay comentarios.