El futuro de la ingeniería de datos: las predicciones de Data Engineering Weekly para 2025

xguru · 2024-12-23T10:36:01+09:00

Principales cambios en la ingeniería de datos en 2024: crecimiento explosivo de la IA generativa, maduración de la gobernanza de datos y enfoque en la eficiencia y el procesamiento en tiempo real Sobre esta base, se anticipan cinco grandes tendencias que transformarán el mundo de los datos en 2025 1. Avances en la computación para IA NVIDIA se ha convertido en la empresa más valiosa del mundo por capitalización bursátil, mostrando un crecimiento que ocurre una vez por generación Google anunció un avance revolucionario en computación cuántica a través de Willow Amazon, Google y Microsoft, entre otros, compiten ferozmente en el mercado de chips para IA; el chip Trainium2 de Amazon es un ejemplo representativo Las PC y dispositivos con Neural Processing Units (NPUs) están habilitando el cómputo de IA offline y mejorando la privacidad de los datos Innovaciones como Edge TPU de Google están acelerando el cambio hacia una computación de borde energéticamente eficiente, reduciendo la dependencia de la infraestructura centralizada en la nube La transición hacia arquitecturas de cómputo híbridas y eficientes en energía está cerrando la brecha entre rendimiento, costo y privacidad en las aplicaciones de IA Se espera que los chips neuromórficos, que imitan la estructura del cerebro, ofrezcan una eficiencia energética sin comparación y capacidad para procesar datos no estructurados en el dispositivo Se están produciendo avances significativos en computación neuromórfica y cuántica, abriendo nuevas fronteras para las capacidades de la IA Se proyecta que estos avances en hardware de IA impulsen innovaciones en procesamiento de lenguaje natural, visión por computadora, robótica y salud a partir de 2025 2. Evolución de los modelos de lenguaje especializados por dominio Domain-specific language models (LLMs) Los modelos de lenguaje especializados por dominio, entrenados con datasets de industrias específicas, están llevando la aplicación de la IA a un nuevo nivel en cada sector Industrias como salud, finanzas, legal y manufactura están adoptando estos modelos para resolver con precisión tareas complejas y ricas en contexto Las capacidades de IA ajustadas a los requisitos detallados de cada industria están transformando los procesos de trabajo y la toma de decisiones en toda la empresa Small Language Models (SLMs) Los modelos de lenguaje pequeños (Small Language Models, SLMs) están ganando atención por su eficiencia en costos y su adaptabilidad Los SLM optimizados para tareas específicas están mostrando un mejor desempeño que los modelos grandes en dominios limitados Con menores requerimientos de cómputo y una implementación más sencilla, los SLM democratizarán el acceso a la IA al permitir que organizaciones de todos los tamaños incorporen capacidades lingüísticas sofisticadas sin la carga de administrar sistemas intensivos en recursos 3. Orquestadores de IA y razonamiento multietapa Orquestadores de IA A medida que las empresas adoptan diversos agentes de IA especializados, se espera que los orquestadores de IA asuman un papel central en el stack de datos impulsado por IA Estos orquestadores funcionan como un plano de control inteligente que enruta dinámicamente las tareas al agente más adecuado, sintetiza los resultados y entrega insights accionables Integran múltiples agentes de IA en flujos de trabajo coherentes gracias a una comprensión profunda del contenido, capacidad multilingüe y soporte para diversos tipos de datos Avances en el razonamiento multietapa Los modelos de IA están evolucionando más allá de las simples preguntas y respuestas para resolver problemas complejos mediante razonamiento multietapa Al dividir tareas complejas en pasos secuenciales más pequeños, se vuelve posible realizar análisis más precisos y con mayor profundidad Esta capacidad permitirá a los agentes de IA automatizar tareas de larga cola en programación, salud, legal y otras industrias La combinación de orquestadores de IA y razonamiento multietapa abrirá una nueva era de la IA, ampliando de forma significativa su impacto en la resolución de problemas y la toma de decisiones en diversos campos 4. Entornos de desarrollo integrados de próxima generación para integración de datos (Data IDE) El aumento en la demanda de insights de datos por parte de las organizaciones está transformando de raíz la manera de abordar la ingeniería de datos En 2025 se espera el surgimiento de un nuevo tipo de entorno de desarrollo integrado (IDE) diseñado para democratizar eficazmente el acceso y la manipulación de datos Herramientas como lakebyte.ai ya muestran el inicio de esta innovación Características clave Integración fluida Integración continua de todo el ciclo de vida de los datos, desde la ingestión y transformación hasta el análisis, la visualización y el despliegue, dentro de un solo entorno unificado Asistencia inteligente impulsada por IA Incorporarán funciones de IA que ofrecen autocompletado inteligente de código, limpieza automatizada de datos y sugerencias para optimizar pipelines No solo ayudarán a escribir código, sino también a comprender el significado de los datos y sugerir la mejor forma de transformarlos Interfaces Low-Code/No-Code Con interfaces visuales de arrastrar y soltar, incluso usuarios con poca experiencia en programación podrán construir y administrar pipelines de datos También ofrecerán la flexibilidad para que usuarios avanzados escriban código personalizado cuando sea necesario Funciones de colaboración Promoverán una colaboración fluida entre ingenieros de datos, científicos de datos, analistas y usuarios de negocio Permitirá trabajar en conjunto en proyectos de datos dentro de un entorno compartido Gobernanza de datos integrada Las verificaciones de calidad de datos, los pipelines de CI/CD, la ejecución de pruebas de integración antes de hacer push a producción, el control de acceso y el seguimiento de linaje estarán integrados directamente en el flujo de trabajo de desarrollo Esto garantizará que la gobernanza de datos no se deje para después Soporte para diversas fuentes y formatos de datos Ofrecerán conectores nativos para una amplia gama de fuentes de datos, como bases de datos, data lakes, plataformas de streaming y almacenamiento en la nube Soportarán diversos formatos de datos, incluidos datos estructurados, semiestructurados y no estructurados Cloud-native y escalabilidad Estarán diseñados para ejecutarse en la nube, aprovechando la escalabilidad y elasticidad de la infraestructura cloud Se espera que la democratización de los datos mediante IDEs potentes e intuitivos dé lugar a los "Citizen Data Engineers" Expertos de dominio podrán construir y administrar flujos de trabajo de datos aunque no sean programadores tradicionales A medida que se derriban las barreras entre equipos técnicos y no técnicos, se espera una aceleración de la innovación basada en datos Se prevé que en 2025 el Prompt Wrangling será la habilidad más importante para los ingenieros de datos 5. El ascenso de LakeDB: convertir los formatos de lakehouse en una base de datos Las fronteras entre data lakes, data warehouses y bases de datos se están volviendo cada vez más difusas Se espera que en 2025 surja un nuevo paradigma llamado LakeDB Como una evolución del concepto de LakeHouse, avanza hacia la integración directa de funciones de base de datos más potentes dentro del data lake Mantiene la escalabilidad y flexibilidad del object storage, mientras ofrece el rendimiento y la facilidad de uso de las bases de datos tradicionales Ofrece capacidades avanzadas que van más allá de simples consultas sobre object storage y formatos tabulares Gestiona de forma nativa buffering, caching, índices y operaciones de escritura para alcanzar niveles de rendimiento y eficiencia propios de un LakeHouse Los LakeHouse actuales dependen de frameworks de procesamiento externos como Spark o Flink para la ingestión, transformación y escritura de datos Esta dependencia incrementa la complejidad y genera latencia Según la forma de implementación, el rendimiento puede ser inconsistente y surgir problemas de interoperabilidad LakeDB incluirá funciones como estas: Escritura nativa Ofrecerá rutas de escritura optimizadas directamente para el object storage subyacente, eliminando la necesidad de motores de procesamiento externos en tareas comunes Con la reciente incorporación de escritura condicional en S3, se espera que el almacenamiento de objetos en la nube pueda soportar la ruta de escritura de LakeDB Buffering y caching inteligentes Administrará de forma inteligente el buffering y caching de datos para optimizar tanto el rendimiento de lectura como el de escritura Gestión de transacciones Aprovechará la escritura condicional en S3 y técnicas avanzadas de gestión de metadatos para ofrecer capacidades sólidas de gestión transaccional Proporcionará mecanismos integrados para garantizar la consistencia e integridad de los datos Rendimiento inteligente de consultas Integrará motores OLAP in-process como DuckDB para mejorar la eficiencia en el procesamiento de datos de menor escala Mejorará la eficiencia de las consultas mediante indexación avanzada y optimización de queries Seleccionará automáticamente la mejor estrategia según el tamaño de los datos, sin que el usuario tenga que definir una estrategia distinta para cada escala Gestión automatizada de datos La organización por niveles, la compresión y otras funciones de optimización de datos se automatizarán para simplificar la operación y reducir costos Búsqueda vectorial y extensibilidad Ofrecerá soporte integrado para bases de datos vectoriales y búsqueda por similitud Permitirá aplicar selectivamente la técnica de indexación óptima para cada columna, optimizando el rendimiento de lectura y escritura Funciones como el soporte de índices secundarios de Hudi y los tipos de datos variables de Delta ya están comenzando a aparecer en formatos LakeHouse Aunque el concepto de LakeDB aún está en una etapa temprana, se espera una innovación significativa en este campo durante 2025 Los formatos LakeHouse existentes podrían evolucionar para integrar más funciones similares a LakeDB, y también podrían surgir nuevas soluciones construidas desde el inicio con esta visión 6. Zero ETL basado en Data Mesh y contratos, y arquitectura federada A pesar del escepticismo sobre los contratos de datos y el mesh, se espera que más empresas adopten arquitecturas de data mesh Se proyecta un mayor uso de data mesh, especialmente cuando se requiere intercambio de datos dentro de la empresa Zero ETL y las arquitecturas de consultas federadas están impulsando este cambio Zero ETL La tecnología está avanzando hacia una minimización del movimiento y la duplicación de datos Tecnologías como virtualización de datos, motores de consulta federada y protocolos de intercambio de datos permiten acceso y análisis sin procesos ETL complejos Se espera que los procesos ETL tradicionales, complejos y lentos, se simplifiquen El intercambio de datos está emergiendo como una consideración clave Protocolos y plataformas de intercambio de datos seguros y eficientes están haciendo posible la colaboración con socios, clientes y competidores Se espera una mayor adopción y evolución continua de estándares como Delta Sharing Perspectiva futura Se espera que los equipos de dominio puedan ser dueños de sus propios pipelines de datos, crear productos de datos y compartir datos fluidamente más allá de los límites organizacionales A medida que aumente la proporción de empresas que entrenan LLM con sus propios datos, la importancia del intercambio de datos crecerá aún más Se espera que los modelos de intercambio de datos permitan mayor agilidad, menor tiempo para obtener insights y un enfoque más distribuido y escalable para la gestión de datos Conclusión El auge de la IA y la democratización de los datos mediante nuevos IDE están acelerándose La evolución del rol del ingeniero de datos y la aparición de LakeDB están transformando de raíz la forma de gestionar los datos Los principios de data mesh, respaldados por Zero ETL y arquitecturas federadas, se están convirtiendo en la corriente principal En este entorno dinámico, el rol del ingeniero de datos se está volviendo más importante que nunca Se proyecta que ocupará una posición clave como arquitecto de insights, guardián de la calidad de los datos y motor de innovación Se espera que se adapte a las demandas cambiantes de un mundo basado en datos y cree nuevo valor

(dataengineeringweekly.com)

18 puntos por xguru 2024-12-23 | Aún no hay comentarios. | Compartir por WhatsApp

Principales cambios en la ingeniería de datos en 2024: crecimiento explosivo de la IA generativa, maduración de la gobernanza de datos y enfoque en la eficiencia y el procesamiento en tiempo real
Sobre esta base, se anticipan cinco grandes tendencias que transformarán el mundo de los datos en 2025

1. Avances en la computación para IA

NVIDIA se ha convertido en la empresa más valiosa del mundo por capitalización bursátil, mostrando un crecimiento que ocurre una vez por generación
Google anunció un avance revolucionario en computación cuántica a través de Willow
Amazon, Google y Microsoft, entre otros, compiten ferozmente en el mercado de chips para IA; el chip Trainium2 de Amazon es un ejemplo representativo
Las PC y dispositivos con Neural Processing Units (NPUs) están habilitando el cómputo de IA offline y mejorando la privacidad de los datos
Innovaciones como Edge TPU de Google están acelerando el cambio hacia una computación de borde energéticamente eficiente, reduciendo la dependencia de la infraestructura centralizada en la nube
La transición hacia arquitecturas de cómputo híbridas y eficientes en energía está cerrando la brecha entre rendimiento, costo y privacidad en las aplicaciones de IA
Se espera que los chips neuromórficos, que imitan la estructura del cerebro, ofrezcan una eficiencia energética sin comparación y capacidad para procesar datos no estructurados en el dispositivo
Se están produciendo avances significativos en computación neuromórfica y cuántica, abriendo nuevas fronteras para las capacidades de la IA
Se proyecta que estos avances en hardware de IA impulsen innovaciones en procesamiento de lenguaje natural, visión por computadora, robótica y salud a partir de 2025

2. Evolución de los modelos de lenguaje especializados por dominio

Domain-specific language models (LLMs)
- Los modelos de lenguaje especializados por dominio, entrenados con datasets de industrias específicas, están llevando la aplicación de la IA a un nuevo nivel en cada sector
- Industrias como salud, finanzas, legal y manufactura están adoptando estos modelos para resolver con precisión tareas complejas y ricas en contexto
- Las capacidades de IA ajustadas a los requisitos detallados de cada industria están transformando los procesos de trabajo y la toma de decisiones en toda la empresa
Small Language Models (SLMs)
- Los modelos de lenguaje pequeños (Small Language Models, SLMs) están ganando atención por su eficiencia en costos y su adaptabilidad
- Los SLM optimizados para tareas específicas están mostrando un mejor desempeño que los modelos grandes en dominios limitados
- Con menores requerimientos de cómputo y una implementación más sencilla, los SLM democratizarán el acceso a la IA al permitir que organizaciones de todos los tamaños incorporen capacidades lingüísticas sofisticadas sin la carga de administrar sistemas intensivos en recursos

3. Orquestadores de IA y razonamiento multietapa

Orquestadores de IA
- A medida que las empresas adoptan diversos agentes de IA especializados, se espera que los orquestadores de IA asuman un papel central en el stack de datos impulsado por IA
- Estos orquestadores funcionan como un plano de control inteligente que enruta dinámicamente las tareas al agente más adecuado, sintetiza los resultados y entrega insights accionables
- Integran múltiples agentes de IA en flujos de trabajo coherentes gracias a una comprensión profunda del contenido, capacidad multilingüe y soporte para diversos tipos de datos
Avances en el razonamiento multietapa
- Los modelos de IA están evolucionando más allá de las simples preguntas y respuestas para resolver problemas complejos mediante razonamiento multietapa
- Al dividir tareas complejas en pasos secuenciales más pequeños, se vuelve posible realizar análisis más precisos y con mayor profundidad
- Esta capacidad permitirá a los agentes de IA automatizar tareas de larga cola en programación, salud, legal y otras industrias
La combinación de orquestadores de IA y razonamiento multietapa abrirá una nueva era de la IA, ampliando de forma significativa su impacto en la resolución de problemas y la toma de decisiones en diversos campos

4. Entornos de desarrollo integrados de próxima generación para integración de datos (Data IDE)

El aumento en la demanda de insights de datos por parte de las organizaciones está transformando de raíz la manera de abordar la ingeniería de datos
En 2025 se espera el surgimiento de un nuevo tipo de entorno de desarrollo integrado (IDE) diseñado para democratizar eficazmente el acceso y la manipulación de datos
Herramientas como lakebyte.ai ya muestran el inicio de esta innovación
Características clave
- Integración fluida
  - Integración continua de todo el ciclo de vida de los datos, desde la ingestión y transformación hasta el análisis, la visualización y el despliegue, dentro de un solo entorno unificado
- Asistencia inteligente impulsada por IA
  - Incorporarán funciones de IA que ofrecen autocompletado inteligente de código, limpieza automatizada de datos y sugerencias para optimizar pipelines
  - No solo ayudarán a escribir código, sino también a comprender el significado de los datos y sugerir la mejor forma de transformarlos
- Interfaces Low-Code/No-Code
  - Con interfaces visuales de arrastrar y soltar, incluso usuarios con poca experiencia en programación podrán construir y administrar pipelines de datos
  - También ofrecerán la flexibilidad para que usuarios avanzados escriban código personalizado cuando sea necesario
- Funciones de colaboración
  - Promoverán una colaboración fluida entre ingenieros de datos, científicos de datos, analistas y usuarios de negocio
  - Permitirá trabajar en conjunto en proyectos de datos dentro de un entorno compartido
- Gobernanza de datos integrada
  - Las verificaciones de calidad de datos, los pipelines de CI/CD, la ejecución de pruebas de integración antes de hacer push a producción, el control de acceso y el seguimiento de linaje estarán integrados directamente en el flujo de trabajo de desarrollo
  - Esto garantizará que la gobernanza de datos no se deje para después
- Soporte para diversas fuentes y formatos de datos
  - Ofrecerán conectores nativos para una amplia gama de fuentes de datos, como bases de datos, data lakes, plataformas de streaming y almacenamiento en la nube
  - Soportarán diversos formatos de datos, incluidos datos estructurados, semiestructurados y no estructurados
- Cloud-native y escalabilidad
  - Estarán diseñados para ejecutarse en la nube, aprovechando la escalabilidad y elasticidad de la infraestructura cloud
Se espera que la democratización de los datos mediante IDEs potentes e intuitivos dé lugar a los "Citizen Data Engineers"
- Expertos de dominio podrán construir y administrar flujos de trabajo de datos aunque no sean programadores tradicionales
A medida que se derriban las barreras entre equipos técnicos y no técnicos, se espera una aceleración de la innovación basada en datos
Se prevé que en 2025 el Prompt Wrangling será la habilidad más importante para los ingenieros de datos

5. El ascenso de LakeDB: convertir los formatos de lakehouse en una base de datos

Las fronteras entre data lakes, data warehouses y bases de datos se están volviendo cada vez más difusas
Se espera que en 2025 surja un nuevo paradigma llamado LakeDB
Como una evolución del concepto de LakeHouse, avanza hacia la integración directa de funciones de base de datos más potentes dentro del data lake
- Mantiene la escalabilidad y flexibilidad del object storage, mientras ofrece el rendimiento y la facilidad de uso de las bases de datos tradicionales
Ofrece capacidades avanzadas que van más allá de simples consultas sobre object storage y formatos tabulares
- Gestiona de forma nativa buffering, caching, índices y operaciones de escritura para alcanzar niveles de rendimiento y eficiencia propios de un LakeHouse
Los LakeHouse actuales dependen de frameworks de procesamiento externos como Spark o Flink para la ingestión, transformación y escritura de datos
- Esta dependencia incrementa la complejidad y genera latencia
- Según la forma de implementación, el rendimiento puede ser inconsistente y surgir problemas de interoperabilidad
LakeDB incluirá funciones como estas:
- Escritura nativa
  - Ofrecerá rutas de escritura optimizadas directamente para el object storage subyacente, eliminando la necesidad de motores de procesamiento externos en tareas comunes
  - Con la reciente incorporación de escritura condicional en S3, se espera que el almacenamiento de objetos en la nube pueda soportar la ruta de escritura de LakeDB
- Buffering y caching inteligentes
  - Administrará de forma inteligente el buffering y caching de datos para optimizar tanto el rendimiento de lectura como el de escritura
- Gestión de transacciones
  - Aprovechará la escritura condicional en S3 y técnicas avanzadas de gestión de metadatos para ofrecer capacidades sólidas de gestión transaccional
  - Proporcionará mecanismos integrados para garantizar la consistencia e integridad de los datos
- Rendimiento inteligente de consultas
  - Integrará motores OLAP in-process como DuckDB para mejorar la eficiencia en el procesamiento de datos de menor escala
  - Mejorará la eficiencia de las consultas mediante indexación avanzada y optimización de queries
  - Seleccionará automáticamente la mejor estrategia según el tamaño de los datos, sin que el usuario tenga que definir una estrategia distinta para cada escala
- Gestión automatizada de datos
  - La organización por niveles, la compresión y otras funciones de optimización de datos se automatizarán para simplificar la operación y reducir costos
- Búsqueda vectorial y extensibilidad
  - Ofrecerá soporte integrado para bases de datos vectoriales y búsqueda por similitud
  - Permitirá aplicar selectivamente la técnica de indexación óptima para cada columna, optimizando el rendimiento de lectura y escritura
  - Funciones como el soporte de índices secundarios de Hudi y los tipos de datos variables de Delta ya están comenzando a aparecer en formatos LakeHouse
Aunque el concepto de LakeDB aún está en una etapa temprana, se espera una innovación significativa en este campo durante 2025
Los formatos LakeHouse existentes podrían evolucionar para integrar más funciones similares a LakeDB, y también podrían surgir nuevas soluciones construidas desde el inicio con esta visión

6. Zero ETL basado en Data Mesh y contratos, y arquitectura federada

A pesar del escepticismo sobre los contratos de datos y el mesh, se espera que más empresas adopten arquitecturas de data mesh
Se proyecta un mayor uso de data mesh, especialmente cuando se requiere intercambio de datos dentro de la empresa
Zero ETL y las arquitecturas de consultas federadas están impulsando este cambio
Zero ETL
- La tecnología está avanzando hacia una minimización del movimiento y la duplicación de datos
- Tecnologías como virtualización de datos, motores de consulta federada y protocolos de intercambio de datos permiten acceso y análisis sin procesos ETL complejos
- Se espera que los procesos ETL tradicionales, complejos y lentos, se simplifiquen
El intercambio de datos está emergiendo como una consideración clave
- Protocolos y plataformas de intercambio de datos seguros y eficientes están haciendo posible la colaboración con socios, clientes y competidores
- Se espera una mayor adopción y evolución continua de estándares como Delta Sharing
Perspectiva futura
- Se espera que los equipos de dominio puedan ser dueños de sus propios pipelines de datos, crear productos de datos y compartir datos fluidamente más allá de los límites organizacionales
- A medida que aumente la proporción de empresas que entrenan LLM con sus propios datos, la importancia del intercambio de datos crecerá aún más
- Se espera que los modelos de intercambio de datos permitan mayor agilidad, menor tiempo para obtener insights y un enfoque más distribuido y escalable para la gestión de datos

Conclusión

El auge de la IA y la democratización de los datos mediante nuevos IDE están acelerándose
La evolución del rol del ingeniero de datos y la aparición de LakeDB están transformando de raíz la forma de gestionar los datos
Los principios de data mesh, respaldados por Zero ETL y arquitecturas federadas, se están convirtiendo en la corriente principal
En este entorno dinámico, el rol del ingeniero de datos se está volviendo más importante que nunca
- Se proyecta que ocupará una posición clave como arquitecto de insights, guardián de la calidad de los datos y motor de innovación
- Se espera que se adapte a las demandas cambiantes de un mundo basado en datos y cree nuevo valor