12 puntos por xguru 2025-04-07 | Aún no hay comentarios. | Compartir por WhatsApp
  • Desde 2021 hasta inicios de 2023, el campo de la tecnología de datos, especialmente el Modern Data Stack, fue una de las áreas más activas y comentadas dentro de la industria tecnológica
  • A finales de 2023, con la aparición de ChatGPT, la atención se desplazó hacia la IA y la discusión sobre infraestructura de datos quedó algo relegada
  • Sin embargo, a medida que la IA empieza a integrarse en los flujos de trabajo reales, dos cosas quedan claras:
    • Los flujos de trabajo complejos de IA deben aprovechar activamente las lecciones de la ingeniería de datos
    • Para que los LLM funcionen correctamente, deben poder acceder a los datos producidos en los flujos de trabajo analíticos

El vínculo real entre la IA y la infraestructura de datos

  • Por muy inteligentes que sean los LLM, si no pueden acceder a información precisa, no pueden dar respuestas precisas
  • Si la información está dispersa entre publicaciones de Reddit, documentos internos, data warehouses, etc., los LLM no pueden acceder a ella
  • La buena noticia es que ya están surgiendo protocolos y estándares que permiten que los LLM accedan a diversas fuentes de información
  • Pero sigue habiendo desafíos por resolver: qué información proporcionar, si esa información es correcta y cómo configurar los permisos de acceso

Ventajas y desafíos de integrar LLM según la fuente de información

  • LLMs + búsqueda en internet

    • Ventajas: permite aprovechar fácilmente información pública y actualizada del mundo real integrando datos de la web (por ejemplo, buscar buenos restaurantes)
    • Problemas:
      • El contenido optimizado para SEO también funciona bien en los LLM, por lo que información poco confiable aparece en los primeros resultados
      • Ejemplo: si buscas "la mejor almohada de 2025", es difícil encontrar una respuesta confiable → con los LLM pasa lo mismo
  • LLMs + documentos internos (Notion, Slack, etc.)

    • Ventajas:
      • Permite entender de un vistazo información de colaboración entre equipos, políticas y planes dentro de organizaciones complejas
      • Herramientas como NotionAI muestran bien el potencial de los LLM
    • Problemas:
      • Es difícil saber si los documentos están actualizados
      • Pueden aparecer resultados contradictorios ante la misma pregunta
      • Por eso, además del documento en sí, también se necesita metadata sobre la confiabilidad del documento
  • LLMs + datos estructurados y métricas

    • Ventajas:
      • Permite análisis de datos complejos sin SQL mediante una interfaz conversacional
      • Cuando se trabaja con datos familiares, se siente como tener superpoderes
    • Problemas:
      • ¿Se están usando definiciones consistentes en toda la organización?
      • ¿La dirección puede confiar en los resultados y usarlos para tomar decisiones reales?
      • ¿El control de acceso y la gobernanza de datos están bien configurados?
      • El Text-to-SQL sigue mejorando, pero la viabilidad práctica y la confiabilidad en ejecución siguen siendo desafíos

Tres ejemplos de integración de datos para LLM

  • Por ejemplo, si el CEO de una cadena de restaurantes estuviera evaluando expandirse a una nueva región, podría aprovechar toda la siguiente información:
    • Documentos internos: entender la estrategia y los planes de la organización
    • Datos estructurados: analizar la situación financiera y los datos de clientes
    • Búsqueda en internet: investigar información de mercado y benchmarks de esa región
  • En teoría es un enfoque muy útil, pero en la práctica hay que conectar varios sistemas de forma improvisada, y un solo error pequeño puede afectar toda la evaluación

El verdadero valor del Modern Data Stack

  • Que el Modern Data Stack se haya popularizado justo antes de la llegada de la IA para centralizar, estandarizar y gobernar los datos no fue una simple coincidencia
  • Esa infraestructura era precisamente la base para la era de los LLM
  • El Modern Data Stack va más allá de construir dashboards; es una plataforma para flujos de trabajo e interfaces de datos consistentes y confiables
  • Ahora que la IA empieza a interactuar con este ecosistema, la importancia de la infraestructura de datos vuelve a destacarse

El papel futuro de los profesionales de datos

  • Ahora los profesionales de datos deben ir más allá del análisis de datos tradicional para:
    • Construir un entorno de datos confiable que los LLM puedan usar
    • Diseñar sistemas con gobernanza y control de acceso aplicados
    • Garantizar estabilidad y confiabilidad al desplegar sistemas de IA
  • Este campo trae consigo una gran oportunidad y también una responsabilidad importante
  • Actualmente muchas organizaciones están aplicando sistemas LLM al trabajo real, y este es el momento de generar un impacto concreto

Cierre

  • El Modern Data Stack sigue siendo una infraestructura válida en la era de la IA, y ahora está empezando a conectarse de lleno con los sistemas de IA
  • Los flujos de trabajo de IA que integran datos estructurados, documentos no estructurados e información del mundo real ya son viables, y se espera que evolucionen aún más
  • Diseñar y conectar estos sistemas en la dirección correcta es la misión de la comunidad de datos

Aún no hay comentarios.

Aún no hay comentarios.