9 puntos por xguru 2024-12-05 | 5 comentarios | Compartir por WhatsApp
  • ELT (Extract, Load, Transform) se usa para conectar los "silos" del análisis de datos y el desarrollo de software dentro de una organización, pero esa misma estructura de silos es la raíz del problema
  • ELT es solo un puente entre silos. Un mundo sin silos es un "grafo (Graph)"

Los límites de la mentalidad ELT

  • En un mundo de silos, donde en un silo está el software y en otro el análisis de datos, ELT tiene mucho sentido
  • ELT funciona asumiendo una estructura de silos
    • Cuando el equipo de desarrollo de software y el equipo de análisis de datos están separados, aparece la tarea de "extraer (Extract)"
    • Al equipo de software no le interesa el trabajo del equipo de datos, y el equipo de datos simplemente extrae datos usando permisos de base de datos
    • Solo después de la extracción se aplican principios de ingeniería como calidad de datos y modelado, pero para entonces ya es demasiado tarde
  • Aquí opera la ley de Conway
    • "El diseño de los sistemas que construye una organización se parece a la estructura de comunicación de esa organización"
  • Por la mentalidad de silos, ETL/ELT/Reverse ETL no son adecuados para lidiar con la complejidad de la arquitectura de datos moderna
    • Los datos ya no existen solo en sistemas operativos y sistemas analíticos, sino que se expanden a un tercer dominio de datos representado por el SaaS
    • Los datos fluyen entre regiones y nubes, entre backend y SaaS
    • Hoy existen 100 veces más aplicaciones que antes, las organizaciones se están convirtiendo en software y la red de relaciones entre sistemas de software se vuelve cada vez más compleja

La necesidad de una mentalidad de grafo

  • Si los equipos de software y de datos colaboran de forma armónica, es posible pasar de un modelo como ELT, que extrae y almacena datos, a un modelo de grafo
    • Imagina un grafo compuesto por nodos que "consumen (Consume)" datos
    • Cada nodo produce o consume datos, formando de manera natural una red o grafo
  • Ventajas de la mentalidad de grafo:
    • Se reduce la extracción de datos y aumenta el consumo
    • Aumenta el modelado de datos centrado en conjuntos de datos de alta calidad
    • Disminuyen la limpieza de datos, el almacenamiento de datos crudos y la corrección de errores en pipelines
    • Se aprovechan fuentes de streaming y procesamiento incremental para reemplazar procesos batch
    • El análisis deja de limitarse a herramientas de decisión estratégica y se expande a usos operativos
    • Aumenta la colaboración y alineación entre equipos, y disminuyen los silos

Conclusión

  • La mentalidad ELT es el resultado de la ley de Conway, que refleja la desconexión entre los equipos de software y de datos
  • No hace falta desechar todas las herramientas ETL/ELT existentes, pero sí enfocarse en el consumo de datos y en construir conjuntos de datos derivados confiables
  • En la práctica, Shift Left sigue estando en una etapa aspiracional, y los problemas de integración con infraestructura legacy aún persisten
    • Shift Left: estrategia para integrar prácticas importantes de desarrollo en las primeras etapas del ciclo de vida del desarrollo de software (SDLC)
  • Las organizaciones que adopten una mentalidad de grafo obtendrán los mayores beneficios en uso de datos, ROI de IA y resultados de negocio

"No existe la extracción (Extract). Solo existe el consumo (Consume)." – Yoda de los datos

5 comentarios

 
udopeanut 2024-12-18

Después de leer el libro de Data Mesh, hay muchas partes que ahora sí entiendo.

 
softer 2024-12-05

He estado ideando constantemente sobre la toma de decisiones basada en grafos, y estaría genial que pudieran reunirse personas que estén pensando lo mismo.

 
kimsk 2024-12-06

Ah, así que el término que se usa en estos casos es "ideación". Aprendí algo nuevo. Personalmente, es un tema que me interesa mucho. Ojalá podamos reunirnos.

 
jwseo 2024-12-05

¿Alguien podría explicarlo un poco más? ¿El enfoque del que habla el autor significa que todos los datasets derivados del grafo se almacenan y administran por separado? Si no es así, no termino de entender en qué se diferencia de ETL.

 
rlaehdus2003 2024-12-05

Se dice que la estructura en la que las áreas operativas y analíticas existentes están separadas tiene un problema estructural de silos, y que al diseñar una arquitectura de datos no deben considerarse por separado, sino dividiéndolas entre productores y consumidores de datos.

Ahora, a medida que la frontera entre los datos operativos y los datos analíticos se vuelve difusa, se plantea que hay que adoptar un pensamiento de grafo (graph thinking, o la mentalidad de grafo).

Por lo que percibo, más que una separación explícita entre datos operativos y datos analíticos, se distingue a los consumidores y productores de datos como una extensión de los datos operativos, y se observa el acceso a los datos desde la perspectiva del flujo de datos (aunque los roles puedan estar separados).

Parece que se está hablando desde la perspectiva de la arquitectura de datos, como cuando se analiza con datos operativos, luego eso regresa a la operación, y después vuelve nuevamente al análisis.