- Principales cambios en la ingeniería de datos en 2024: crecimiento explosivo de la IA generativa, maduración de la gobernanza de datos y enfoque en la eficiencia y el procesamiento en tiempo real
- Sobre esta base, se anticipan cinco grandes tendencias que transformarán el mundo de los datos en 2025
1. Avances en la computación para IA
- NVIDIA se ha convertido en la empresa más valiosa del mundo por capitalización bursátil, mostrando un crecimiento que ocurre una vez por generación
- Google anunció un avance revolucionario en computación cuántica a través de Willow
- Amazon, Google y Microsoft, entre otros, compiten ferozmente en el mercado de chips para IA; el chip Trainium2 de Amazon es un ejemplo representativo
- Las PC y dispositivos con Neural Processing Units (NPUs) están habilitando el cómputo de IA offline y mejorando la privacidad de los datos
- Innovaciones como Edge TPU de Google están acelerando el cambio hacia una computación de borde energéticamente eficiente, reduciendo la dependencia de la infraestructura centralizada en la nube
- La transición hacia arquitecturas de cómputo híbridas y eficientes en energía está cerrando la brecha entre rendimiento, costo y privacidad en las aplicaciones de IA
- Se espera que los chips neuromórficos, que imitan la estructura del cerebro, ofrezcan una eficiencia energética sin comparación y capacidad para procesar datos no estructurados en el dispositivo
- Se están produciendo avances significativos en computación neuromórfica y cuántica, abriendo nuevas fronteras para las capacidades de la IA
- Se proyecta que estos avances en hardware de IA impulsen innovaciones en procesamiento de lenguaje natural, visión por computadora, robótica y salud a partir de 2025
2. Evolución de los modelos de lenguaje especializados por dominio
- Domain-specific language models (LLMs)
- Los modelos de lenguaje especializados por dominio, entrenados con datasets de industrias específicas, están llevando la aplicación de la IA a un nuevo nivel en cada sector
- Industrias como salud, finanzas, legal y manufactura están adoptando estos modelos para resolver con precisión tareas complejas y ricas en contexto
- Las capacidades de IA ajustadas a los requisitos detallados de cada industria están transformando los procesos de trabajo y la toma de decisiones en toda la empresa
- Small Language Models (SLMs)
- Los modelos de lenguaje pequeños (Small Language Models, SLMs) están ganando atención por su eficiencia en costos y su adaptabilidad
- Los SLM optimizados para tareas específicas están mostrando un mejor desempeño que los modelos grandes en dominios limitados
- Con menores requerimientos de cómputo y una implementación más sencilla, los SLM democratizarán el acceso a la IA al permitir que organizaciones de todos los tamaños incorporen capacidades lingüísticas sofisticadas sin la carga de administrar sistemas intensivos en recursos
3. Orquestadores de IA y razonamiento multietapa
- Orquestadores de IA
- A medida que las empresas adoptan diversos agentes de IA especializados, se espera que los orquestadores de IA asuman un papel central en el stack de datos impulsado por IA
- Estos orquestadores funcionan como un plano de control inteligente que enruta dinámicamente las tareas al agente más adecuado, sintetiza los resultados y entrega insights accionables
- Integran múltiples agentes de IA en flujos de trabajo coherentes gracias a una comprensión profunda del contenido, capacidad multilingüe y soporte para diversos tipos de datos
- Avances en el razonamiento multietapa
- Los modelos de IA están evolucionando más allá de las simples preguntas y respuestas para resolver problemas complejos mediante razonamiento multietapa
- Al dividir tareas complejas en pasos secuenciales más pequeños, se vuelve posible realizar análisis más precisos y con mayor profundidad
- Esta capacidad permitirá a los agentes de IA automatizar tareas de larga cola en programación, salud, legal y otras industrias
- La combinación de orquestadores de IA y razonamiento multietapa abrirá una nueva era de la IA, ampliando de forma significativa su impacto en la resolución de problemas y la toma de decisiones en diversos campos
4. Entornos de desarrollo integrados de próxima generación para integración de datos (Data IDE)
- El aumento en la demanda de insights de datos por parte de las organizaciones está transformando de raíz la manera de abordar la ingeniería de datos
- En 2025 se espera el surgimiento de un nuevo tipo de entorno de desarrollo integrado (IDE) diseñado para democratizar eficazmente el acceso y la manipulación de datos
- Herramientas como lakebyte.ai ya muestran el inicio de esta innovación
- Características clave
- Integración fluida
- Integración continua de todo el ciclo de vida de los datos, desde la ingestión y transformación hasta el análisis, la visualización y el despliegue, dentro de un solo entorno unificado
- Asistencia inteligente impulsada por IA
- Incorporarán funciones de IA que ofrecen autocompletado inteligente de código, limpieza automatizada de datos y sugerencias para optimizar pipelines
- No solo ayudarán a escribir código, sino también a comprender el significado de los datos y sugerir la mejor forma de transformarlos
- Interfaces Low-Code/No-Code
- Con interfaces visuales de arrastrar y soltar, incluso usuarios con poca experiencia en programación podrán construir y administrar pipelines de datos
- También ofrecerán la flexibilidad para que usuarios avanzados escriban código personalizado cuando sea necesario
- Funciones de colaboración
- Promoverán una colaboración fluida entre ingenieros de datos, científicos de datos, analistas y usuarios de negocio
- Permitirá trabajar en conjunto en proyectos de datos dentro de un entorno compartido
- Gobernanza de datos integrada
- Las verificaciones de calidad de datos, los pipelines de CI/CD, la ejecución de pruebas de integración antes de hacer push a producción, el control de acceso y el seguimiento de linaje estarán integrados directamente en el flujo de trabajo de desarrollo
- Esto garantizará que la gobernanza de datos no se deje para después
- Soporte para diversas fuentes y formatos de datos
- Ofrecerán conectores nativos para una amplia gama de fuentes de datos, como bases de datos, data lakes, plataformas de streaming y almacenamiento en la nube
- Soportarán diversos formatos de datos, incluidos datos estructurados, semiestructurados y no estructurados
- Cloud-native y escalabilidad
- Estarán diseñados para ejecutarse en la nube, aprovechando la escalabilidad y elasticidad de la infraestructura cloud
- Se espera que la democratización de los datos mediante IDEs potentes e intuitivos dé lugar a los "Citizen Data Engineers"
- Expertos de dominio podrán construir y administrar flujos de trabajo de datos aunque no sean programadores tradicionales
- A medida que se derriban las barreras entre equipos técnicos y no técnicos, se espera una aceleración de la innovación basada en datos
- Se prevé que en 2025 el Prompt Wrangling será la habilidad más importante para los ingenieros de datos
5. El ascenso de LakeDB: convertir los formatos de lakehouse en una base de datos
- Las fronteras entre data lakes, data warehouses y bases de datos se están volviendo cada vez más difusas
- Se espera que en 2025 surja un nuevo paradigma llamado LakeDB
- Como una evolución del concepto de LakeHouse, avanza hacia la integración directa de funciones de base de datos más potentes dentro del data lake
- Mantiene la escalabilidad y flexibilidad del object storage, mientras ofrece el rendimiento y la facilidad de uso de las bases de datos tradicionales
- Ofrece capacidades avanzadas que van más allá de simples consultas sobre object storage y formatos tabulares
- Gestiona de forma nativa buffering, caching, índices y operaciones de escritura para alcanzar niveles de rendimiento y eficiencia propios de un LakeHouse
- Los LakeHouse actuales dependen de frameworks de procesamiento externos como Spark o Flink para la ingestión, transformación y escritura de datos
- Esta dependencia incrementa la complejidad y genera latencia
- Según la forma de implementación, el rendimiento puede ser inconsistente y surgir problemas de interoperabilidad
- LakeDB incluirá funciones como estas:
- Escritura nativa
- Ofrecerá rutas de escritura optimizadas directamente para el object storage subyacente, eliminando la necesidad de motores de procesamiento externos en tareas comunes
- Con la reciente incorporación de escritura condicional en S3, se espera que el almacenamiento de objetos en la nube pueda soportar la ruta de escritura de LakeDB
- Buffering y caching inteligentes
- Administrará de forma inteligente el buffering y caching de datos para optimizar tanto el rendimiento de lectura como el de escritura
- Gestión de transacciones
- Aprovechará la escritura condicional en S3 y técnicas avanzadas de gestión de metadatos para ofrecer capacidades sólidas de gestión transaccional
- Proporcionará mecanismos integrados para garantizar la consistencia e integridad de los datos
- Rendimiento inteligente de consultas
- Integrará motores OLAP in-process como DuckDB para mejorar la eficiencia en el procesamiento de datos de menor escala
- Mejorará la eficiencia de las consultas mediante indexación avanzada y optimización de queries
- Seleccionará automáticamente la mejor estrategia según el tamaño de los datos, sin que el usuario tenga que definir una estrategia distinta para cada escala
- Gestión automatizada de datos
- La organización por niveles, la compresión y otras funciones de optimización de datos se automatizarán para simplificar la operación y reducir costos
- Búsqueda vectorial y extensibilidad
- Ofrecerá soporte integrado para bases de datos vectoriales y búsqueda por similitud
- Permitirá aplicar selectivamente la técnica de indexación óptima para cada columna, optimizando el rendimiento de lectura y escritura
- Funciones como el soporte de índices secundarios de Hudi y los tipos de datos variables de Delta ya están comenzando a aparecer en formatos LakeHouse
- Aunque el concepto de LakeDB aún está en una etapa temprana, se espera una innovación significativa en este campo durante 2025
- Los formatos LakeHouse existentes podrían evolucionar para integrar más funciones similares a LakeDB, y también podrían surgir nuevas soluciones construidas desde el inicio con esta visión
6. Zero ETL basado en Data Mesh y contratos, y arquitectura federada
- A pesar del escepticismo sobre los contratos de datos y el mesh, se espera que más empresas adopten arquitecturas de data mesh
- Se proyecta un mayor uso de data mesh, especialmente cuando se requiere intercambio de datos dentro de la empresa
- Zero ETL y las arquitecturas de consultas federadas están impulsando este cambio
- Zero ETL
- La tecnología está avanzando hacia una minimización del movimiento y la duplicación de datos
- Tecnologías como virtualización de datos, motores de consulta federada y protocolos de intercambio de datos permiten acceso y análisis sin procesos ETL complejos
- Se espera que los procesos ETL tradicionales, complejos y lentos, se simplifiquen
- El intercambio de datos está emergiendo como una consideración clave
- Protocolos y plataformas de intercambio de datos seguros y eficientes están haciendo posible la colaboración con socios, clientes y competidores
- Se espera una mayor adopción y evolución continua de estándares como Delta Sharing
- Perspectiva futura
- Se espera que los equipos de dominio puedan ser dueños de sus propios pipelines de datos, crear productos de datos y compartir datos fluidamente más allá de los límites organizacionales
- A medida que aumente la proporción de empresas que entrenan LLM con sus propios datos, la importancia del intercambio de datos crecerá aún más
- Se espera que los modelos de intercambio de datos permitan mayor agilidad, menor tiempo para obtener insights y un enfoque más distribuido y escalable para la gestión de datos
Conclusión
- El auge de la IA y la democratización de los datos mediante nuevos IDE están acelerándose
- La evolución del rol del ingeniero de datos y la aparición de LakeDB están transformando de raíz la forma de gestionar los datos
- Los principios de data mesh, respaldados por Zero ETL y arquitecturas federadas, se están convirtiendo en la corriente principal
- En este entorno dinámico, el rol del ingeniero de datos se está volviendo más importante que nunca
- Se proyecta que ocupará una posición clave como arquitecto de insights, guardián de la calidad de los datos y motor de innovación
- Se espera que se adapte a las demandas cambiantes de un mundo basado en datos y cree nuevo valor
Aún no hay comentarios.