25 puntos por xguru 2022-04-25 | 4 comentarios | Compartir por WhatsApp

Actualización 2.0 del artículo publicado en 2020

Changelog

  • 2 áreas nuevas que han crecido rápidamente
    • Herramientas para respaldar procesos y flujos de trabajo de datos clave como descubrimiento de datos, observabilidad y auditoría de modelos de ML
    • Nuevas aplicaciones como data workspaces, reverse ETL y frameworks de aplicaciones de ML que permiten a los equipos de datos y a los usuarios de negocio generar valor a partir de los datos
  • Agregados a BI
    • Metrics Layer: nuevas herramientas puras como Transfrom y Supergrain. Y dbt expandiéndose hacia este espacio
    • Reverse ETL: Hightouch, Census
    • Data Workspace: Hex, Mode, Deepnote
    • Data Discovery & Observability: Monte Carlo y Big Eye levantaron mucho capital. También hay muchas empresas en etapa seed como Select Star, Metaphor, Stemma, Secoda y Castor
  • Agregados a Multimodal Data Processing
    • Un enfoque hacia la arquitectura lakehouse
    • La storage layer se actualizó: Delta/Iceberg/Hudi se están adoptando más y comercializando más.
    • Sigue creciendo la adopción de stream processing: procesamiento de datos analíticos en tiempo real. Materialize/Upsolver
  • Agregados a AI & ML
    • Integración alrededor de un enfoque centrado en los datos
      • Etiquetado de datos: Scale, Labelbox. Aumenta el interés por los closed-loop data engines
      • Mayor adopción de feature stores: Tecton, Feast, Databricks
      • Soluciones de low-code ML: Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
    • El uso de modelos pre-trained se está volviendo la norma, especialmente en NLP. OpenAI & Hugging Face
    • MLOps está madurando, y están aumentando los casos de uso y el presupuesto centrados en ML monitoring
    • También se concentra la atención en cómo integrar modelos de ML en aplicaciones. APIs preconstruidas (OpenAI), bases de datos vectoriales (Pinecone), etc.

Hipótesis de la plataforma de datos

  • Durante el último año, el stack de infraestructura de datos se ha expandido rápidamente con sistemas centrales y herramientas de soporte, y para explicar por qué está ocurriendo esto se presenta la idea de una "plataforma de datos"
  • ¿Qué es una plataforma?
    • En el ecosistema de datos, "plataforma" es un término sobrecargado. Lo usan tanto los equipos internos para referirse al stack tecnológico completo como los vendors que venden suites de productos conectadas de forma flexible
    • En software, una plataforma es algo sobre lo que otros desarrolladores pueden construir
    • La característica definitoria de una plataforma, desde una perspectiva industrial, es la "interdependencia" entre un proveedor de plataforma influyente (técnica y económicamente) y un conjunto de desarrolladores third-party
  • ¿Qué es una plataforma de datos?
    • Históricamente, el stack de datos no encajaba con la definición de plataforma
    • Había interdependencia entre vendors de ETL, data warehouse y reporting, pero el modelo de integración tendía a ser más 1:1 que 1:many. Los servicios profesionales solían complementar eso
    • Por lo conversado con muchos profesionales de datos, esto podría estar empezando a cambiar
    • La hipótesis de la plataforma sostiene que el "backend (que va desde data ingestion, storage, processing y transformation)" del stack de datos está empezando a integrarse en algunos vendors basados en la nube
    • Como resultado, los datasets de los clientes se recopilan en un conjunto estándar de sistemas, y los vendors están haciendo que esos datos sean fácilmente accesibles para otros desarrolladores (mediante principios de diseño básicos de Databricks, estándares SQL y APIs como Snowpark de Snowflake)
    • Así como los desarrolladores frontend se beneficiaron de la integración en un solo punto, ahora es posible acceder a datos integrados sin preocuparse por la estructura subyacente
    • Incluso sistemas empresariales tradicionales como finanzas o analítica de producto están empezando a reconstruirse con una arquitectura "warehouse-native"
    • Esto no significa que las bases de datos OLTP u otras tecnologías backend importantes vayan a desaparecer pronto
    • Pero la integración nativa con sistemas OLAP puede convertirse en un componente central del desarrollo de aplicaciones
    • Cada vez más lógica de negocio y funcionalidades de aplicaciones podrían moverse hacia este modelo
  • ¿La aparición de las data apps?
    • Esta hipótesis de la plataforma de datos todavía tiene mucho por discutirse
    • De cualquier forma, estamos viendo un aumento de soluciones SaaS verticales complejas como una capa horizontal sobre plataformas de datos
    • Empresas como Snowflake y Databricks se convertirán en piezas estables de este stack de datos
      • Por sus excelentes productos, equipos de ventas competentes y modelos de despliegue con poca fricción
      • Porque cuando un cliente construye o integra aplicaciones de datos sobre estos sistemas, deja de ser razonable cambiarse a otra cosa
    • El hecho de que se hayan creado tantos productos de infraestructura de datos en los últimos años y que sigan apareciendo probablemente tiene relación con las plataformas
    • La hipótesis de la plataforma tiene poder para volver predecible la dinámica competitiva
      • A gran escala, las plataformas son extremadamente valiosas
      • Los vendors de sistemas de datos centrales podrían estar compitiendo agresivamente no por el presupuesto actual, sino por asegurar una posición de plataforma a largo plazo
    • Las altas valuaciones de las empresas de data ingestion & transformation, o de los sectores de Metrics Layer o Reverse ETL, pueden resultar más razonables si se considera que son partes clave de las nuevas plataformas de datos
  • Mirando hacia adelante
    • Todavía estamos en una etapa temprana para definir plataformas de datos analíticas y operativas, y las piezas que las componen siguen cambiando
    • Por eso, esto es más útil como metáfora que como una definición estricta
    • Aun así, esta hipótesis también es útil como herramienta para filtrar la señal del ruido y para entender por qué el mercado se mueve de esta manera
    • Los equipos de datos ahora tienen más herramientas, recursos y momentum organizacional que en cualquier otro momento desde la invención de la base de datos
    • Es muy emocionante observar si la capa de aplicaciones evolucionará sobre esta nueva plataforma

4 comentarios

 
sungwoo 2023-01-10

¿También podrían actualizar los videos de las clases de YouTube que antes subían..? ^^;
https://youtube.com/watch/…

¡Como siempre, muchas gracias~

 
xguru 2023-01-10

Como también estuve haciendo videos y luego lo dejé, ahora ya no puedo seguir haciéndolos T_T Probablemente será difícil que haya una actualización en el corto plazo.

 
sungwoo 2023-01-10

Ah, sí. Incluso solo con lo que compartiste antes me fue de mucha ayuda.
Aprovecho este espacio para darte las gracias.

 
xguru 2022-04-25

Esta es una versión actualizada del artículo Una nueva arquitectura para la infraestructura de datos moderna.

Iba a subirlo después de ordenarlo, pero resulta que en Techit también hicieron una traducción completa de esta versión 2.0. Les recomiendo revisarla también como referencia.
La arquitectura de datos moderna y la era de la nueva arquitectura