- Desde 2021 hasta inicios de 2023, el campo de la tecnología de datos, especialmente el Modern Data Stack, fue una de las áreas más activas y comentadas dentro de la industria tecnológica
- A finales de 2023, con la aparición de ChatGPT, la atención se desplazó hacia la IA y la discusión sobre infraestructura de datos quedó algo relegada
- Sin embargo, a medida que la IA empieza a integrarse en los flujos de trabajo reales, dos cosas quedan claras:
- Los flujos de trabajo complejos de IA deben aprovechar activamente las lecciones de la ingeniería de datos
- Para que los LLM funcionen correctamente, deben poder acceder a los datos producidos en los flujos de trabajo analíticos
El vínculo real entre la IA y la infraestructura de datos
- Por muy inteligentes que sean los LLM, si no pueden acceder a información precisa, no pueden dar respuestas precisas
- Si la información está dispersa entre publicaciones de Reddit, documentos internos, data warehouses, etc., los LLM no pueden acceder a ella
- La buena noticia es que ya están surgiendo protocolos y estándares que permiten que los LLM accedan a diversas fuentes de información
- Pero sigue habiendo desafíos por resolver: qué información proporcionar, si esa información es correcta y cómo configurar los permisos de acceso
Ventajas y desafíos de integrar LLM según la fuente de información
-
LLMs + búsqueda en internet
- Ventajas: permite aprovechar fácilmente información pública y actualizada del mundo real integrando datos de la web (por ejemplo, buscar buenos restaurantes)
- Problemas:
- El contenido optimizado para SEO también funciona bien en los LLM, por lo que información poco confiable aparece en los primeros resultados
- Ejemplo: si buscas "la mejor almohada de 2025", es difícil encontrar una respuesta confiable → con los LLM pasa lo mismo
-
LLMs + documentos internos (Notion, Slack, etc.)
- Ventajas:
- Permite entender de un vistazo información de colaboración entre equipos, políticas y planes dentro de organizaciones complejas
- Herramientas como NotionAI muestran bien el potencial de los LLM
- Problemas:
- Es difícil saber si los documentos están actualizados
- Pueden aparecer resultados contradictorios ante la misma pregunta
- Por eso, además del documento en sí, también se necesita metadata sobre la confiabilidad del documento
-
LLMs + datos estructurados y métricas
- Ventajas:
- Permite análisis de datos complejos sin SQL mediante una interfaz conversacional
- Cuando se trabaja con datos familiares, se siente como tener superpoderes
- Problemas:
- ¿Se están usando definiciones consistentes en toda la organización?
- ¿La dirección puede confiar en los resultados y usarlos para tomar decisiones reales?
- ¿El control de acceso y la gobernanza de datos están bien configurados?
- El Text-to-SQL sigue mejorando, pero la viabilidad práctica y la confiabilidad en ejecución siguen siendo desafíos
Tres ejemplos de integración de datos para LLM
- Por ejemplo, si el CEO de una cadena de restaurantes estuviera evaluando expandirse a una nueva región, podría aprovechar toda la siguiente información:
- Documentos internos: entender la estrategia y los planes de la organización
- Datos estructurados: analizar la situación financiera y los datos de clientes
- Búsqueda en internet: investigar información de mercado y benchmarks de esa región
- En teoría es un enfoque muy útil, pero en la práctica hay que conectar varios sistemas de forma improvisada, y un solo error pequeño puede afectar toda la evaluación
El verdadero valor del Modern Data Stack
- Que el Modern Data Stack se haya popularizado justo antes de la llegada de la IA para centralizar, estandarizar y gobernar los datos no fue una simple coincidencia
- Esa infraestructura era precisamente la base para la era de los LLM
- El Modern Data Stack va más allá de construir dashboards; es una plataforma para flujos de trabajo e interfaces de datos consistentes y confiables
- Ahora que la IA empieza a interactuar con este ecosistema, la importancia de la infraestructura de datos vuelve a destacarse
El papel futuro de los profesionales de datos
- Ahora los profesionales de datos deben ir más allá del análisis de datos tradicional para:
- Construir un entorno de datos confiable que los LLM puedan usar
- Diseñar sistemas con gobernanza y control de acceso aplicados
- Garantizar estabilidad y confiabilidad al desplegar sistemas de IA
- Este campo trae consigo una gran oportunidad y también una responsabilidad importante
- Actualmente muchas organizaciones están aplicando sistemas LLM al trabajo real, y este es el momento de generar un impacto concreto
Cierre
- El Modern Data Stack sigue siendo una infraestructura válida en la era de la IA, y ahora está empezando a conectarse de lleno con los sistemas de IA
- Los flujos de trabajo de IA que integran datos estructurados, documentos no estructurados e información del mundo real ya son viables, y se espera que evolucionen aún más
- Diseñar y conectar estos sistemas en la dirección correcta es la misión de la comunidad de datos
Aún no hay comentarios.