- La infraestructura de datos empresarial ha evolucionado junto con los avances tecnológicos, haciendo posibles nuevos productos y servicios
- La infraestructura de datos ha pasado de los data warehouses on-premise tradicionales a data warehouses y data lakes basados en la nube
- Recientemente, con el rápido avance de la IA, ha surgido una nueva arquitectura llamada data lakehouse, marcando la entrada en la era de Data 3.0
- El lakehouse replantea el núcleo de la infraestructura de datos empresarial como una plataforma unificada, interoperable y de alto rendimiento que soporta diversos usos, incluidos análisis y cargas de trabajo de IA
- Como resultado, aumenta la probabilidad de que surjan nuevas empresas de infraestructura de datos valuadas en miles de millones de dólares
El trasfondo de la innovación del lakehouse
- Entre 2019 y 2024, la inversión empresarial en infraestructura de datos casi se duplicó, pasando de aproximadamente 180 mil millones de dólares a 350 mil millones
- Los data warehouses y data lakes tradicionales no satisfacen por completo los requisitos de la IA
- Las cargas de trabajo centradas en IA tienen requisitos como los siguientes:
- Deben poder manejar datos estructurados, semiestructurados y no estructurados
- Deben permitir procesamiento de datos en tiempo real, multimodal y componible
- Se necesita interoperabilidad entre bases de datos tradicionales y bases de datos vectoriales
- Cambios en la demanda de los clientes empresariales:
- Necesidad de eliminar duplicación de datos
- Mayor complejidad en la gobernanza de datos
- Necesidad de escapar del lock-in de proveedores y ganar flexibilidad
- Dificultad para encontrar soluciones adecuadas para la IA
Los formatos de tabla abiertos hacen posible el lakehouse
- Los open table formats (OTF) como Delta Lake, Iceberg y Hudi forman la base del lakehouse
- Funciones principales:
- Soporte para transacciones ACID: garantiza consistencia y estabilidad de los datos
- Soporte para procesamiento por lotes y streaming
- Flexibilidad en esquemas y particionado
- Función de time travel para restaurar estados anteriores
- Gestión de metadatos escalable
La aparición del paradigma lakehouse
- El data lakehouse es una nueva arquitectura que combina el rendimiento de un data warehouse con la flexibilidad de un data lake
- Está emergiendo como la infraestructura de próxima generación para aplicaciones impulsadas por IA, analítica en tiempo real e inteligencia empresarial
- Grandes empresas y startups están acelerando su transición al lakehouse, y se está formando un nuevo mercado alrededor de ello
Thesis 1: Implementación de pipelines inteligentes en tiempo real mediante ingesta y transformación centradas en IA
- Las herramientas ETL tradicionales son ineficientes a escala de IA
- Prefect, Windmill y dltHub soportan pipelines de datos y orquestación basados en código
- Herramientas como Tobiko ofrecen automatización de SQL, data lineage, seguimiento de dependencias y más
- El Model Context Protocol (MCP) de Anthropic ofrece una interfaz estandarizada para mantener el contexto en flujos de trabajo de IA
- Apache Kafka y Flink proporcionan capacidades de mensajería y procesamiento en streaming esenciales para entrenamiento e inferencia de modelos en tiempo real
- Chalk AI contribuye a decisiones rápidas al ofrecer una plataforma de inferencia en tiempo real
- La capa de metadatos está emergiendo como una importante fuente de verdad (source of truth) en la era de la IA
Thesis 2: Crece la importancia estratégica de la capa de metadatos
- Los metadatos ya no son solo información, sino una capa central que impulsa acciones
- Los open table formats como Iceberg, Delta Lake y Hudi están liderando la innovación en metadatos
- Están surgiendo catálogos nativos de lakehouse como Datastrato y Vakamo
- DataHub de Acryl Data soporta el acceso a datos y la gobernanza tanto para humanos como para agentes de IA
- OpenHouse, Apache Amoro y Ryft ofrecen un control plane centrado en metadatos
- Flarion.io y Greybeam están desarrollando herramientas de optimización de rendimiento en capas más allá del almacenamiento
Thesis 3: Cambios en cómputo y motores de consulta
- La expansión del lakehouse está impulsando una transición desde estructuras centradas en una plataforma única hacia arquitecturas modulares
- Además de Snowflake y Databricks, están creciendo soluciones especializadas como DuckDB, ClickHouse y Druid
- Daft, typedef, Mooncake y Bauplan están desarrollando nuevos frameworks de cómputo para optimización centrada en IA
- La aparición de motores de consulta optimizados para IA y plataformas de cómputo federado está estableciendo un nuevo estándar para el procesamiento de datos
Thesis 4: Se difuminan las fronteras entre ingeniería de datos e ingeniería de software
- Las aplicaciones centradas en IA están impulsando un cambio hacia desarrolladores en general con capacidades orientadas a datos
- dbt Labs ha introducido prácticas de ingeniería de software como control de versiones, pruebas y CI/CD en el desarrollo de datos
- Gable ayuda a construir pipelines de datos con una interfaz amigable para el usuario
- Temporal e Inngest aportan confiabilidad y visibilidad a flujos de trabajo distribuidos complejos
- Las contribuciones a open source se están disparando, y la tasa de crecimiento de los proyectos de datos en GitHub supera a la del software general
- Aumenta la adopción de open source para aprovechar mejor el soporte de los LLM
- A medida que convergen la ingeniería centrada en IA y en datos, las estructuras de equipo y las formas de desarrollo están cambiando de manera fundamental
2 comentarios
¿Qué viene después del Lakehouse?
¿Será Dataland?
Ojalá los costos bajen para que incluso las startups puedan intentarlo jaja