Hoja de ruta: Data 3.0 en la era del Lakehouse

(bvp.com)

8 puntos por GN⁺ 2025-04-01 | 2 comentarios | Compartir por WhatsApp

La infraestructura de datos empresarial ha evolucionado junto con los avances tecnológicos, haciendo posibles nuevos productos y servicios
La infraestructura de datos ha pasado de los data warehouses on-premise tradicionales a data warehouses y data lakes basados en la nube
Recientemente, con el rápido avance de la IA, ha surgido una nueva arquitectura llamada data lakehouse, marcando la entrada en la era de Data 3.0
El lakehouse replantea el núcleo de la infraestructura de datos empresarial como una plataforma unificada, interoperable y de alto rendimiento que soporta diversos usos, incluidos análisis y cargas de trabajo de IA
Como resultado, aumenta la probabilidad de que surjan nuevas empresas de infraestructura de datos valuadas en miles de millones de dólares

El trasfondo de la innovación del lakehouse

Entre 2019 y 2024, la inversión empresarial en infraestructura de datos casi se duplicó, pasando de aproximadamente 180 mil millones de dólares a 350 mil millones
Los data warehouses y data lakes tradicionales no satisfacen por completo los requisitos de la IA
Las cargas de trabajo centradas en IA tienen requisitos como los siguientes:
- Deben poder manejar datos estructurados, semiestructurados y no estructurados
- Deben permitir procesamiento de datos en tiempo real, multimodal y componible
- Se necesita interoperabilidad entre bases de datos tradicionales y bases de datos vectoriales
Cambios en la demanda de los clientes empresariales:
- Necesidad de eliminar duplicación de datos
- Mayor complejidad en la gobernanza de datos
- Necesidad de escapar del lock-in de proveedores y ganar flexibilidad
- Dificultad para encontrar soluciones adecuadas para la IA

Los open table formats (OTF) como Delta Lake, Iceberg y Hudi forman la base del lakehouse
Funciones principales:
- Soporte para transacciones ACID: garantiza consistencia y estabilidad de los datos
- Soporte para procesamiento por lotes y streaming
- Flexibilidad en esquemas y particionado
- Función de time travel para restaurar estados anteriores
- Gestión de metadatos escalable

El data lakehouse es una nueva arquitectura que combina el rendimiento de un data warehouse con la flexibilidad de un data lake
Está emergiendo como la infraestructura de próxima generación para aplicaciones impulsadas por IA, analítica en tiempo real e inteligencia empresarial
Grandes empresas y startups están acelerando su transición al lakehouse, y se está formando un nuevo mercado alrededor de ello

Las herramientas ETL tradicionales son ineficientes a escala de IA
Prefect, Windmill y dltHub soportan pipelines de datos y orquestación basados en código
Herramientas como Tobiko ofrecen automatización de SQL, data lineage, seguimiento de dependencias y más
El Model Context Protocol (MCP) de Anthropic ofrece una interfaz estandarizada para mantener el contexto en flujos de trabajo de IA
Apache Kafka y Flink proporcionan capacidades de mensajería y procesamiento en streaming esenciales para entrenamiento e inferencia de modelos en tiempo real
Chalk AI contribuye a decisiones rápidas al ofrecer una plataforma de inferencia en tiempo real
La capa de metadatos está emergiendo como una importante fuente de verdad (source of truth) en la era de la IA

Los metadatos ya no son solo información, sino una capa central que impulsa acciones
Los open table formats como Iceberg, Delta Lake y Hudi están liderando la innovación en metadatos
Están surgiendo catálogos nativos de lakehouse como Datastrato y Vakamo
DataHub de Acryl Data soporta el acceso a datos y la gobernanza tanto para humanos como para agentes de IA
OpenHouse, Apache Amoro y Ryft ofrecen un control plane centrado en metadatos
Flarion.io y Greybeam están desarrollando herramientas de optimización de rendimiento en capas más allá del almacenamiento

La expansión del lakehouse está impulsando una transición desde estructuras centradas en una plataforma única hacia arquitecturas modulares
Además de Snowflake y Databricks, están creciendo soluciones especializadas como DuckDB, ClickHouse y Druid
Daft, typedef, Mooncake y Bauplan están desarrollando nuevos frameworks de cómputo para optimización centrada en IA
La aparición de motores de consulta optimizados para IA y plataformas de cómputo federado está estableciendo un nuevo estándar para el procesamiento de datos

Las aplicaciones centradas en IA están impulsando un cambio hacia desarrolladores en general con capacidades orientadas a datos
dbt Labs ha introducido prácticas de ingeniería de software como control de versiones, pruebas y CI/CD en el desarrollo de datos
Gable ayuda a construir pipelines de datos con una interfaz amigable para el usuario
Temporal e Inngest aportan confiabilidad y visibilidad a flujos de trabajo distribuidos complejos
Las contribuciones a open source se están disparando, y la tasa de crecimiento de los proyectos de datos en GitHub supera a la del software general
Aumenta la adopción de open source para aprovechar mejor el soporte de los LLM
A medida que convergen la ingeniería centrada en IA y en datos, las estructuras de equipo y las formas de desarrollo están cambiando de manera fundamental

halfenif 2025-04-01

¿Qué viene después del Lakehouse?

¿Será Dataland?

yangeok 2025-04-01

Ojalá los costos bajen para que incluso las startups puedan intentarlo jaja