→ Un solo repositorio para almacenar todos los datos. Guarda tanto datos estructurados como no estructurados y permite realizar todo tipo de análisis, desde el histórico hasta la predicción del futuro<br />
- Por supuesto, hay muchos competidores (hiperescaladores en la nube como AWS y GCP)<br />
- Tanto Snowflake como Databricks son amigos y enemigos (Friend and Foe) de los proveedores de nube<br /> → Snowflake, que creció sobre AWS, se está expandiendo a otras nubes <br /> → Databricks tiene una alianza muy fuerte con Microsoft, pero también ayuda a evitar el vendor lock-in mediante capacidades multicloud <br /> → En los últimos años, sus críticos han señalado que los márgenes de los modelos de negocio de Snowflake y Databricks dependen de cómo fijen precios los proveedores de nube <br />
- En los próximos cinco años, observar el baile entre los proveedores de nube y estos gigantes de datos (Behemoth) será una historia clave <br /> <br />
"Bundling, Unbundling, Consolidation?"<br />
- Dado el ascenso de Snowflake y Databricks, ¿será este el inicio de la ola de consolidación que la industria ha estado esperando?<br />
- En el campo de datos / IA, “la consolidación funcional sí está ocurriendo”<br />
- Pero todos están en lo mismo. Nadie quiere quedarse como una empresa de un solo producto; todos quieren empaquetar más cosas y tener más funciones<br /> → Confluent, que salió a bolsa en 2021/6, también busca ir más allá del campo de los datos en tiempo real y “unificar el procesamiento de datos en movimiento y datos estáticos” <br /> → Dataiku se enfoca en empaquetar en una sola plataforma la preparación de datos, DataOps, MLOps, visualización y AI explainability <br />
- La aparición del modern data stack es otro ejemplo de consolidación funcional <br /> → En el fondo, es una “alianza” de facto entre empresas (en su mayoría startups) que conectan desde la extracción de datos hasta el data warehouse y BI <br />
- Para los usuarios de estas tecnologías, el bundling y la convergencia serán muy bien recibidos<br /> → A medida que madura, la industria de datos tendrá que evolucionar más allá de divisiones tecnológicas como “transaccional vs. analítico”, “procesamiento por lotes vs. tiempo real” y “BI vs IA” <br />
- Las empresas seguirán combinando distintos vendors / plataformas / herramientas para armar la mezcla que mejor se adapte a sus necesidades<br /> <br />
- La razón clave es que “la velocidad de la innovación es demasiado explosiva”<br /> → Siguen apareciendo nuevas startups, las grandes tecnológicas crean herramientas de datos/IA internamente y luego las liberan como open source, y cada semana surge algo nuevo para todas las tecnologías/productos existentes <br /> <br />
- Aunque los vendors de big data warehouse y data lake empujan con fuerza a centralizar todos los datos, también están surgiendo nuevos frameworks como “Data Mesh” <br /> → Un enfoque distribuido en el que distintos equipos asumen su propia responsabilidad <br /> <br />
- Más allá de la consolidación funcional, es difícil saber si habrá M&A <br /> → Entre los rumores favoritos de la gente está que “Microsoft quiere adquirir Databricks”<br /> <br />
"Financings, IPOs, M&A: A Crazy Market"<br />
- Cualquiera que haya seguido un poco el mercado de startups lo sabe: el mercado está loco <br />
- Igual que el año pasado, este año datos y ML/IA son la categoría de inversión más caliente<br />
- Empresas que planean salir a bolsa<br /> → UiPath : empresa de automatización RPA e IA <br /> → Confluent : Kafka <br /> → C3.ai : plataforma de IA <br /> → Couchbase : base de datos no-SQL <br /> → SentinelOne : plataforma de seguridad de endpoints automatizada con IA <br /> → TuSimple : camiones autónomos <br /> → Zymergen : biofabricación <br /> → Recursion : empresa de desarrollo de fármacos impulsada por IA<br /> → Darktrace : ciberseguridad basada en IA<br />
- El aumento de los SPAC beneficiará a las empresas tecnológicas que están en la primera línea del mercado de IA (conducción autónoma, biotecnología, etc.)<br /> <br />
"The 2021 MAD Landscape & What’s New this Year"<br />
- En el mapa de este año, “Analytics and Machine Intelligence” se separó en “Analytics” y “Machine Learning & Artificial Intelligence” <br />
- Se agregaron nuevas categorías <br /> → Infrastructure<br /> ⇨ Reverse ETL : productos que vuelven a enviar datos desde el data warehouse hacia aplicaciones SaaS <br /> ⇨ Data Observability : componente de DataOps enfocado en resolver problemas de calidad de datos con base en el linaje de datos (Lineage) <br /> ⇨ Privacy & Security : la privacidad de datos es cada vez más importante, y muchas startups han aparecido en esta categoría <br /> → Analytics<br /> ⇨ Data Catalogs & Discovery : la categoría más activa de los últimos 12 meses. Permite a los usuarios encontrar y administrar los datasets que necesitan <br /> ⇨ Augmented Analytics : las herramientas de BI aprovechan los avances en NLG/NLP para generar insights automáticamente y hacer que los datos sean accesibles para audiencias no técnicas <br /> ⇨ Metrics Stores : repositorio central para métricas clave del negocio. Nuevo ingreso en el data stack<br /> ⇨ Query Engines <br /> → Machine Learning and AI <br /> ⇨ La categoría de MLOps se subdividió en más detalle: Model Building, Feature Stores, Deployment and Production <br /> → Open Source <br /> ⇨ Se agregaron Format, Orchestration, Data Quality & Observability <br />
- Antes predominaban las startups de serie C en adelante o empresas públicas, pero este año se agregaron muchas compañías en etapa serie A/seed <br /> <br />
"Principales tendencias en infraestructura de datos"<br />
-
2020 <br /> → Modern Data Stack pasó al mainstream <br /> → ETL vs ELT <br /> → ¿Automatización de la ingeniería de datos?<br /> → El auge del analista de datos <br /> → ¿Se fusionarán el data lake y el data warehouse?<br /> → Complejidad aún no resuelta <br /> <br />
-
2021 <br /> → Data Mesh <br /> → Un año muy movido para DataOps <br /> → Ahora toca tiempo real<br /> → Metrics Stores <br /> → Reverse ETL <br /> → Data Sharing <br /> <br /> [Data Mesh]<br />
-
Se origina en “How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh”, planteado por Zhamak Dehghani en 2019 <br />
-
Ganó mucho impulso entre 2020 y 2021<br />
-
El concepto de data mesh es, en gran parte, una idea organizacional<br />
-
Hasta ahora, la forma estándar de construir infraestructura y equipos de datos ha sido la centralización. Una gran plataforma administrada por un equipo de datos satisface las necesidades del negocio <br />
-
Tiene muchas ventajas, pero también genera problemas como cuellos de botella <br />
-
La idea es crear, mediante la descentralización, equipos de datos independientes que se encarguen cada uno de su dominio y proporcionen datos “como producto” a otras personas dentro de la organización <br /> → Es parecido al concepto de microservicios del que se habla en ingeniería de software <br />
-
Tiene varias implicaciones <br /> → Si esto se vuelve posible, será una gran oportunidad para startups que construyan herramientas mission-critical sobre un data stack distribuido<br />
-
Starburst, un SQL Query Engine que unifica consultas y análisis sobre múltiples repositorios, hizo rebranding de sí mismo como “motor analítico para data mesh” <br />
-
Los motores de orquestación que gestionan pipelines complejos (como Airflow, Prefect y Dagster) se volverán todavía más mission-critical <br />
-
Rastrear los datos en los repositorios y pipelines se volvió aún más indispensable desde la perspectiva de compliance y gobernanza, reforzando la necesidad de la data lineage (OpenLineage, DataKin)<br /> <br /> [Un año muy movido para DataOps]<br />
-
El concepto de DataOps estuvo dando vueltas durante años y recientemente por fin empezó a activarse de verdad <br />
-
Existen varias definiciones <br /> → DevOps para el mundo de los datos <br /> → Todo lo necesario para construir y mantener pipelines de datos, encontrar los datasets correctos mediante un catálogo de datos, y permitir que productores y consumidores de datos realicen el trabajo que necesitan <br />
-
En cualquier caso, al igual que DevOps, es una “combinación de metodología, procesos, personas, plataforma y herramientas”<br />
-
En un contexto más amplio, las “herramientas y prácticas de ingeniería de datos” siguen bastante rezagadas respecto al nivel de automatización de la ingeniería de software<br />
-
Cuanto más importantes se vuelven los datos y la IA, más se necesitan mejores herramientas y prácticas <br />
-
Todos quieren convertirse en el “DataDog del mundo de los datos” (de hecho, DataDog también se usa en DataOps, pero en esencia está basado en ingeniería de software)<br />
-
Hay varias subáreas, como Data observability, Data Lineage, Data Quality, Data Reliability Engineering y Data Access & Governance<br /> <br /> [Ahora es tiempo real]<br />
-
Los datos “en tiempo real” o “streaming” son datos que se procesan y consumen justo después de ser generados <br />
-
Es lo opuesto al paradigma “batch”, que hasta ahora ha dominado la infraestructura de datos <br />
-
El procesamiento de datos en tiempo real ha sido un tema candente desde los inicios de la era del big data, hace 10-15 años<br /> → En particular, la velocidad de procesamiento fue clave para impulsar el éxito de Spark frente a HadoopMR <br />
-
Pero aunque durante años fue un mercado “a punto de explotar”, no terminaba de hacerlo <br />
-
El gran éxito del IPO de Confluent demostró que los escépticos estaban equivocados <br />
-
Y más allá de Confluent, todo el ecosistema de datos en tiempo real se aceleró <br />
-
En particular, la “analítica en tiempo real” mostró mucha actividad <br /> → ClickHouse, creado por la rusa Yandex, estableció una empresa en EE. UU. y recibió una inversión de $50M <br /> → Imply, una plataforma de analítica en tiempo real basada en el open source Druid, recibió una inversión de $70M <br /> <br /> [Metrics Stores]<br />
-
En los últimos años aumentaron los datos de las empresas y la frecuencia y complejidad de su uso <br />
-
A medida que creció la complejidad, también aumentaron los dolores de cabeza por inconsistencias de datos <br />
-
Las métricas pueden desalinearse con facilidad incluso por pequeños cambios en dimensiones/definiciones u otros factores<br />
-
Los datos solo son útiles cuando son precisos y confiables para los equipos que los usan <br />
-
Los intentos de centralizar métricas llevaron al desarrollo de soluciones internas como Minerva de AirBnB: “Define Once, Use Anywhere”<br />
-
Estandarizan las definiciones de métricas clave del negocio y de todas las dimensiones, y proporcionan a los stakeholders datasets precisos y analizables basados en esas definiciones <br />
-
Con base en definiciones centralizadas de métricas, construyen confianza en los datos y ofrecen acceso cross-functional a las métricas para todos <br />
-
Los metric stores <br /> → Se ubican encima del data warehouse y notifican datos a todas las aplicaciones downstream, incluidas plataformas de BI, herramientas de analítica y ciencia de datos, y aplicaciones operativas <br /> → Mantienen la consistencia de los datos, de modo que si cambia la lógica de negocio, se refleje automáticamente <br />
-
Hay startups como Transform, Trace y Supergrain <br /> <br /> [Reverse ETL]<br />
-
En el modern data stack, Reverse ETL se convirtió en una categoría propia <br />
-
Vuelve a mover datos desde el data warehouse hacia aplicaciones de negocio como CRM, sistemas de automatización de marketing y plataformas de soporte al cliente <br />
-
La idea es permitir que las herramientas operativas reales aprovechen datos recientes enriquecidos desde otras aplicaciones de negocio <br />
-
Muchas herramientas de Reverse ETL recibieron financiamiento: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic <br /> <br /> [Data Sharing]<br />
-
Está creciendo el intercambio de datos y la colaboración de datos no solo dentro de la empresa, sino en toda la organización ampliada <br />
-
Se busca compartir datos con ecosistemas de proveedores, socios y clientes para visibilidad de la cadena de suministro, entrenamiento de modelos de machine learning y compartir planes de salida al mercado, entre otros casos <br />
-
El intercambio de datos entre organizaciones es un tema central para los vendors de “data cloud” <br />
-
En mayo de 2021, Google lanzó Analytics Hub. Permite compartir datos/insights/dashboards/modelos de machine learning dentro y fuera de la organización. También presentó DataShare para servicios financieros <br />
-
El mismo día que Google, Databricks presentó Delta Sharing, un protocolo open source para compartir datos entre organizaciones <br />
-
En junio de 2021, Snowflake presentó la función Secure Data Sharing a través de su data marketplace <br />
-
Hay startups como Habr y Crossbeam </p><p>## “Principales tendencias de ML/IA”<br /> 2020<br />
-
Boom time for data science and machine learning platforms (DSML)<br />
-
ML getting deployed and embedded<br />
-
The Year of NLP<br /> <br /> 2021<br />
-
Feature Stores<br />
-
The rise of ModelOps<br />
-
AI content generation<br />
-
The continued emergence of a separate Chinese AI stack<br /> <br />
-
La investigación en inteligencia artificial sigue avanzando rápidamente<br /> → DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP <br /> <br /> [Feature Stores]<br />
-
Desde que Uber presentó la idea en 2017, se han vuelto cada vez más comunes dentro del stack de machine learning <br /> → Empresas como Tecton, Rasgo, Logical Clocks y Kaskada levantaron rondas de financiamiento <br />
-
En machine learning, una feature (variable o atributo) es una propiedad o característica medible individualmente, representada como una columna en un fragmento de datos<br /> → Los modelos de machine learning pueden usar desde una sola feature hasta millones de ellas <br />
-
A medida que se usan modelos y pipelines cada vez más complejos, el trabajo se volvió cada vez más ad hoc <br />
-
Ingenieros y científicos de datos a menudo gastan mucho tiempo reextrayendo features a partir de datos raw <br />
-
La brecha entre los entornos de producción y de experimentación puede provocar inconsistencias en el rendimiento o comportamiento del modelo<br />
-
Las organizaciones también se interesan por la gobernanza y la reproducibilidad de los modelos de machine learning, por lo que el aislamiento de las features lo vuelve aún más difícil en la práctica <br />
-
Los feature stores fomentan la colaboración y eliminan estos silos <br />
-
Reducen la complejidad y estandarizan y reutilizan features al ofrecer una única fuente de verdad tanto para entrenamiento como para producción <br />
-
Almacenan features curadas dentro de la organización, ejecutan pipelines de datos que transforman datos crudos en valores de features y ofrecen acceso rápido a través de APIs <br /> <br /> [The Rise of ModelOps]<br />
-
Muchas empresas se dieron cuenta de que llevar modelos de la etapa experimental a producción es difícil, y también de que los modelos en uso requieren monitoreo continuo y reentrenamiento <br />
-
MLOps aplica las mejores prácticas de DevOps. Simplifica el desarrollo y despliegue rápidos y continuos de modelos a gran escala <br />
-
ModelOps es un superconjunto de MLOps. Apunta a una operación más rápida de todos los modelos de IA, incluido ML, en todas las etapas, desde el entrenamiento hasta producción <br />
-
ModelOps abarca tanto herramientas como procesos, integra procesos, estandariza la orquestación de modelos y ofrece un repositorio centralizado para todos los modelos junto con capacidades integrales de gobernanza <br />
-
Un ModelOps bien implementado proporciona un sistema unificado para desplegar, monitorear y gestionar todos los modelos, reduciendo riesgos y elevando el compliance <br /> <br /> [AI Content Generation]<br />
-
La IA ha madurado enormemente en los últimos años y se utiliza para crear contenido en todo tipo de medios, incluidos texto, imágenes, código y video<br />
-
Se presentó OpenAI GPT-3. GitHub presentó GitHub Copilot, impulsado por OpenAI Codex <br />
-
Aunque OpenAI se enfoca en modelos centrados en inglés, también hay muchas empresas trabajando en otros idiomas <br /> → Aleph Alpha de Alemania, AI21 Labs, PanGu de Huawei, HyperCLOVA de Naver<br /> <br /> [La continua aparición de una pila de IA china separada]<br />
-
China sigue desarrollándose como una potencia global de IA, junto con su propio mercado, el mayor productor de datos del mundo <br />
-
TikTok, uno de los mejores algoritmos de recomendación, triunfó en Occidente, marcando la primera expansión real de tecnología de consumo de IA china en la región <br />
-
Con China declarando su hegemonía en IA para 2030 y respaldándola financieramente, empezó a surgir una pila propia e independiente en China, que hasta entonces todavía utilizaba herramientas occidentales </p>
3 comentarios