15 puntos por xguru 2021-02-02 | 2 comentarios | Compartir por WhatsApp
  1. Integración de data lakes y warehouses: Data Lakehouse

  2. El "modern data stack" se vuelve mainstream: integración de las principales herramientas basadas en la nube

→ Data Ingestion: Fivetran, Stitch, Hevodata

→ Data Warehouse: Snowflake, BigQuery

→ Data Lake: Amazon S3

→ Data Lake Processing: Presto, Dremio, Databricks, Starburst

→ Data Transformation: dbt, Matillion

→ Metadata Management: Atlan

→ BI Tools: Looker

  1. Metadata 3.0: el renacimiento de la gestión de metadatos

→ Surgirán herramientas para manejar data discovery, data catalog, data lineage y observability, entre otros

  1. Aparición de nuevos roles

→ Data Platform Leader: líder que ayuda a aplicar la plataforma de datos al trabajo dentro de la organización

→ Analytics Engineer: con la aparición de herramientas como dbt, se vuelve posible un ingeniero de analítica que no solo analiza, sino que también manipula el data stack

  1. Auge de los frameworks de calidad de datos

→ Data profiling: revisar los datos, verificar la calidad e identificar cómo se usarán en el futuro

→ Definición de reglas de calidad de datos centradas en el negocio

→ Introducción de pruebas de calidad en los pipelines de datos: Amazon Deequ, Great Expectations

2 comentarios

 
xguru 2021-02-02

Para el punto 2, sobre el "stack de datos moderno", consulten la serie "Entendiendo la infraestructura de datos moderna" en el YouTube de GeekNews ;)

https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2

Creo que los puntos 3 y 5 también se tratarán en la parte final de la serie.

 
kwangyeol 2021-02-06

Escucho con mucha atención la serie "Entendiendo la infraestructura de datos moderna" cada vez que publican una entrega.

Como termino usando solo lo de todos los días, me cuesta encontrarme con nuevas tendencias, así que gracias por explicarlas tan bien.