8 puntos por GN⁺ 2025-04-01 | 2 comentarios | Compartir por WhatsApp
  • La infraestructura de datos empresarial ha evolucionado junto con los avances tecnológicos, haciendo posibles nuevos productos y servicios
  • La infraestructura de datos ha pasado de los data warehouses on-premise tradicionales a data warehouses y data lakes basados en la nube
  • Recientemente, con el rápido avance de la IA, ha surgido una nueva arquitectura llamada data lakehouse, marcando la entrada en la era de Data 3.0
  • El lakehouse replantea el núcleo de la infraestructura de datos empresarial como una plataforma unificada, interoperable y de alto rendimiento que soporta diversos usos, incluidos análisis y cargas de trabajo de IA
  • Como resultado, aumenta la probabilidad de que surjan nuevas empresas de infraestructura de datos valuadas en miles de millones de dólares

El trasfondo de la innovación del lakehouse

  • Entre 2019 y 2024, la inversión empresarial en infraestructura de datos casi se duplicó, pasando de aproximadamente 180 mil millones de dólares a 350 mil millones
  • Los data warehouses y data lakes tradicionales no satisfacen por completo los requisitos de la IA
  • Las cargas de trabajo centradas en IA tienen requisitos como los siguientes:
    • Deben poder manejar datos estructurados, semiestructurados y no estructurados
    • Deben permitir procesamiento de datos en tiempo real, multimodal y componible
    • Se necesita interoperabilidad entre bases de datos tradicionales y bases de datos vectoriales
  • Cambios en la demanda de los clientes empresariales:
    • Necesidad de eliminar duplicación de datos
    • Mayor complejidad en la gobernanza de datos
    • Necesidad de escapar del lock-in de proveedores y ganar flexibilidad
    • Dificultad para encontrar soluciones adecuadas para la IA

Los formatos de tabla abiertos hacen posible el lakehouse

  • Los open table formats (OTF) como Delta Lake, Iceberg y Hudi forman la base del lakehouse
  • Funciones principales:
    • Soporte para transacciones ACID: garantiza consistencia y estabilidad de los datos
    • Soporte para procesamiento por lotes y streaming
    • Flexibilidad en esquemas y particionado
    • Función de time travel para restaurar estados anteriores
    • Gestión de metadatos escalable

La aparición del paradigma lakehouse

  • El data lakehouse es una nueva arquitectura que combina el rendimiento de un data warehouse con la flexibilidad de un data lake
  • Está emergiendo como la infraestructura de próxima generación para aplicaciones impulsadas por IA, analítica en tiempo real e inteligencia empresarial
  • Grandes empresas y startups están acelerando su transición al lakehouse, y se está formando un nuevo mercado alrededor de ello

Thesis 1: Implementación de pipelines inteligentes en tiempo real mediante ingesta y transformación centradas en IA

  • Las herramientas ETL tradicionales son ineficientes a escala de IA
  • Prefect, Windmill y dltHub soportan pipelines de datos y orquestación basados en código
  • Herramientas como Tobiko ofrecen automatización de SQL, data lineage, seguimiento de dependencias y más
  • El Model Context Protocol (MCP) de Anthropic ofrece una interfaz estandarizada para mantener el contexto en flujos de trabajo de IA
  • Apache Kafka y Flink proporcionan capacidades de mensajería y procesamiento en streaming esenciales para entrenamiento e inferencia de modelos en tiempo real
  • Chalk AI contribuye a decisiones rápidas al ofrecer una plataforma de inferencia en tiempo real
  • La capa de metadatos está emergiendo como una importante fuente de verdad (source of truth) en la era de la IA

Thesis 2: Crece la importancia estratégica de la capa de metadatos

  • Los metadatos ya no son solo información, sino una capa central que impulsa acciones
  • Los open table formats como Iceberg, Delta Lake y Hudi están liderando la innovación en metadatos
  • Están surgiendo catálogos nativos de lakehouse como Datastrato y Vakamo
  • DataHub de Acryl Data soporta el acceso a datos y la gobernanza tanto para humanos como para agentes de IA
  • OpenHouse, Apache Amoro y Ryft ofrecen un control plane centrado en metadatos
  • Flarion.io y Greybeam están desarrollando herramientas de optimización de rendimiento en capas más allá del almacenamiento

Thesis 3: Cambios en cómputo y motores de consulta

  • La expansión del lakehouse está impulsando una transición desde estructuras centradas en una plataforma única hacia arquitecturas modulares
  • Además de Snowflake y Databricks, están creciendo soluciones especializadas como DuckDB, ClickHouse y Druid
  • Daft, typedef, Mooncake y Bauplan están desarrollando nuevos frameworks de cómputo para optimización centrada en IA
  • La aparición de motores de consulta optimizados para IA y plataformas de cómputo federado está estableciendo un nuevo estándar para el procesamiento de datos

Thesis 4: Se difuminan las fronteras entre ingeniería de datos e ingeniería de software

  • Las aplicaciones centradas en IA están impulsando un cambio hacia desarrolladores en general con capacidades orientadas a datos
  • dbt Labs ha introducido prácticas de ingeniería de software como control de versiones, pruebas y CI/CD en el desarrollo de datos
  • Gable ayuda a construir pipelines de datos con una interfaz amigable para el usuario
  • Temporal e Inngest aportan confiabilidad y visibilidad a flujos de trabajo distribuidos complejos
  • Las contribuciones a open source se están disparando, y la tasa de crecimiento de los proyectos de datos en GitHub supera a la del software general
  • Aumenta la adopción de open source para aprovechar mejor el soporte de los LLM
  • A medida que convergen la ingeniería centrada en IA y en datos, las estructuras de equipo y las formas de desarrollo están cambiando de manera fundamental

2 comentarios

 
halfenif 2025-04-01

¿Qué viene después del Lakehouse?

¿Será Dataland?

 
yangeok 2025-04-01

Ojalá los costos bajen para que incluso las startups puedan intentarlo jaja