IA en 2021 y tendencias más recientes

(mattturck.com)

21 puntos por xguru 2021-11-01 | 3 comentarios | Compartir por WhatsApp

El Data & AI Landscape 2021 resumido en una sola imagen y con una explicación detallada

Perspectiva macro: entender la complejidad del ecosistema
Financiamiento, IPO y M&A
The 2021 Landscape
Principales tendencias en infraestructura de datos

→ Data Mesh

→ Un año muy ocupado para DataOps

→ Ahora todo es en tiempo real

→ Metrics Store

→ Reverse ETL

→ Data Sharing

Principales tendencias en analítica & IA empresarial

→ Feature Store

→ El auge de ModelOps

→ Generación de contenido con IA

→ La evolución del stack de IA en China

"Perspectiva macro: entender la complejidad del ecosistema"

¿Por qué siguen apareciendo empresas de datos e IA, y hasta cuándo seguirá esto?
La tendencia fundamental es que “todas las empresas se están convirtiendo no solo en compañías de software, sino en compañías de datos”
En muchas organizaciones, “datos” significaba datos transaccionales almacenados en un RDBMS y algunos dashboards para analizar lo ocurrido en los últimos meses
Pero ahora las empresas avanzan hacia un mundo donde “los datos y la inteligencia artificial” quedan integrados en “procesos internos y aplicaciones externas” para “analítica y operaciones”
Esta evolución fundamental ha sido impulsada por avances sorprendentes en las tecnologías base, en especial por la relación simbiótica entre “infraestructura de datos y machine learning/IA”

→ Ambos campos colaboran cada vez más estrechamente

→ La primera etapa fue la “era del Big Data” a inicios de la década de 2010

→ Al descubrir que aplicar este Big Data a algoritmos de IA antiguos, con más de 10 años de existencia, como deep learning, podía dar resultados sorprendentes, se disparó el entusiasmo por la IA

→ Como resultado, la IA se convirtió en un impulsor clave del desarrollo de infraestructura de datos

→ Si todas las aplicaciones se construyen con base en IA, se necesitará una mejor infraestructura de datos

Hasta llegar a 2021, términos como Big Data e IA han pasado por altibajos, y hoy se habla mucho de “Automation”, pero en el fondo todo esto forma parte de una misma megatendencia
La aceleración reciente en el sector de Data/IA puede rastrearse en el crecimiento de los cloud data warehouses durante los últimos años
El data warehouse resuelve una pregunta muy básica pero esencial de la infraestructura de datos: “¿dónde se va a almacenar?”

→ Uno pensaría que, después de más de 15 años desde el inicio de la revolución del Big Data, ese problema ya estaría resuelto, pero no es así

→ Viéndolo en retrospectiva, el éxito inicial de Hadoop fue hasta cierto punto una ilusión

→ Fue importante para transmitir la idea de que era posible extraer valor real de enormes volúmenes de datos, pero no logró penetrar el mercado porque, debido a su complejidad técnica, solo unas pocas empresas lo usaban

Los cloud data warehouses actuales (Snowflake, Redshift, BigQuery) y los lakehouses (Databricks)

→ cuestan menos

→ no requieren una cantidad enorme de talento técnico

→ y ofrecen la capacidad de almacenar grandes volúmenes de datos de una forma útil

En otras palabras, recién ahora realmente podemos almacenar y procesar Big Data. Esto es algo muy importante, y ha demostrado ser un major unlock para otras áreas de Data/IA

→ Primero, el data warehouse amplía el tamaño del mercado para todo el ecosistema de datos e IA. Gracias a su facilidad de uso y a los precios basados en consumo, el data warehouse se convierte en la puerta de entrada para que todas las empresas se vuelvan compañías de datos

→ Segundo, el data warehouse habilita el uso del ecosistema que existe a su alrededor, incluidas sus herramientas.

⇨ ETL, ELT, reverse ETL, herramientas de calidad de datos centradas en el warehouse, metric stores, augmented analytics, etc.

⇨ “Modern Data Stack” ( https://es.news.hada.io/topic?id=3055 )

⇨ La aparición del modern data stack ha dado origen a muchas startups y ha concentrado inversión (DBT, Fivetran..)

→ Tercero, como el data warehouse resuelve la capa más básica de almacenamiento, las empresas pueden concentrarse en proyectos de mayor valor dentro de la jerarquía de necesidades de datos

⇨ Ahora que los datos ya están almacenados, es más fácil enfocarse en tareas como procesamiento en tiempo real, analítica aumentada y machine learning

⇨ Esto, a su vez, incrementa la demanda del mercado por todo tipo de herramientas y plataformas de datos/IA

⇨ La demanda de más clientes crea un flywheel que genera más innovación en las empresas de datos/ML

"El data warehouse es una señal importante para toda la industria de datos, y a medida que crece el DW, el resto también crece junto con él"

La buena noticia para la industria de datos/IA es que los data warehouses y los lakehouses están creciendo de forma enorme y muy rápida

→ Snowflake creció 103% YoY según su reporte de Q2, y mostró una cifra sorprendente de Net Revenue Retention de 169% (es decir, sus clientes actuales lo usan cada vez más)

→ Se espera que alcance ventas de 12 billones de wones ($10B) en 2028

Algunas personas incluso dicen que en el futuro todas las empresas tendrán al menos un cloud data warehouse

"The Titanic Shock: Snowflake vs Databricks"

Snowflake es recientemente el actor más representativo del sector de datos. Su IPO de septiembre de 2020 fue la más grande en la historia de los IPO de software. Al momento de escribir esto, es una empresa de $95B
Como nuevo competidor dentro de la industria ha surgido Databricks. El 31/8 completó una ronda de financiamiento de $1.6B con una valuación de $38B
Hasta hace poco, ambas empresas pertenecían a segmentos bastante distintos del mercado (de hecho, durante un tiempo fueron socios muy cercanos)
Snowflake, como cloud data warehouse, es una base de datos para almacenar y procesar grandes volúmenes de datos estructurados (los que encajan bien en filas y columnas)

→ Las empresas la usan conectando herramientas de BI para responder preguntas sobre desempeño pasado y presente (“¿qué región fue la de mayor crecimiento el trimestre pasado?”)

→ Como otras bases de datos, usa SQL y por eso tiene cientos de millones de usuarios potenciales

Databricks viene de otra esquina del mundo de los datos

→ Empezó en 2013 comercializando el proyecto open source Spark

→ En general, fue creado para procesar datos no estructurados (texto, audio, video)

→ Los usuarios de Spark lo usaban para construir un “Data Lake”, donde podían guardar cualquier tipo de dato sin preocuparse demasiado por su estructura u organización

→ El principal uso de los data lakes era entrenar aplicaciones de ML/IA para que las empresas pudieran responder preguntas sobre el futuro (“¿qué clientes tienen más probabilidades de comprar el próximo trimestre?”), es decir, analítica predictiva

→ Databricks creó Delta para dar soporte a los data lakes, y ML Flow para dar soporte a ML/IA

Sin embargo, recientemente ambas compañías han empezado a converger una hacia la otra

→ Databricks incorporó capacidades de DW en el data lake para que los analistas puedan ejecutar consultas SQL estándar e integrar herramientas como Tableau o MS PowerBI. Así creó lo que llama un “Lakehouse”

→ Databricks está haciendo que el data lake se parezca más a un data warehouse, y Snowflake publicó en preview funciones para almacenar datos no estructurados (audio, video, PDF, imágenes, etc.) para que su data warehouse se vea más como un data lake

→ Databricks está añadiendo BI a sus funciones de IA, y Snowflake está añadiendo IA a sus capacidades compatibles con BI

Al final, tanto Snowflake como Databricks quieren convertirse en “The center of all things data”

→ Un solo repositorio para almacenar todos los datos. Guarda tanto datos estructurados como no estructurados y permite realizar todo tipo de análisis, desde el histórico hasta la predicción del futuro

Por supuesto, hay muchos competidores (hiperescaladores en la nube como AWS y GCP)
Tanto Snowflake como Databricks son amigos y enemigos (Friend and Foe) de los proveedores de nube

→ Snowflake, que creció sobre AWS, se está expandiendo a otras nubes

→ Databricks tiene una alianza muy fuerte con Microsoft, pero también ayuda a evitar el vendor lock-in mediante capacidades multicloud

→ En los últimos años, sus críticos han señalado que los márgenes de los modelos de negocio de Snowflake y Databricks dependen de cómo fijen precios los proveedores de nube

En los próximos cinco años, observar el baile entre los proveedores de nube y estos gigantes de datos (Behemoth) será una historia clave

"Bundling, Unbundling, Consolidation?"

Dado el ascenso de Snowflake y Databricks, ¿será este el inicio de la ola de consolidación que la industria ha estado esperando?
En el campo de datos / IA, “la consolidación funcional sí está ocurriendo”
Pero todos están en lo mismo. Nadie quiere quedarse como una empresa de un solo producto; todos quieren empaquetar más cosas y tener más funciones

→ Confluent, que salió a bolsa en 2021/6, también busca ir más allá del campo de los datos en tiempo real y “unificar el procesamiento de datos en movimiento y datos estáticos”

→ Dataiku se enfoca en empaquetar en una sola plataforma la preparación de datos, DataOps, MLOps, visualización y AI explainability

La aparición del modern data stack es otro ejemplo de consolidación funcional

→ En el fondo, es una “alianza” de facto entre empresas (en su mayoría startups) que conectan desde la extracción de datos hasta el data warehouse y BI

Para los usuarios de estas tecnologías, el bundling y la convergencia serán muy bien recibidos

→ A medida que madura, la industria de datos tendrá que evolucionar más allá de divisiones tecnológicas como “transaccional vs. analítico”, “procesamiento por lotes vs. tiempo real” y “BI vs IA”

Las empresas seguirán combinando distintos vendors / plataformas / herramientas para armar la mezcla que mejor se adapte a sus necesidades
La razón clave es que “la velocidad de la innovación es demasiado explosiva”

→ Siguen apareciendo nuevas startups, las grandes tecnológicas crean herramientas de datos/IA internamente y luego las liberan como open source, y cada semana surge algo nuevo para todas las tecnologías/productos existentes

Aunque los vendors de big data warehouse y data lake empujan con fuerza a centralizar todos los datos, también están surgiendo nuevos frameworks como “Data Mesh”

→ Un enfoque distribuido en el que distintos equipos asumen su propia responsabilidad

Más allá de la consolidación funcional, es difícil saber si habrá M&A

→ Entre los rumores favoritos de la gente está que “Microsoft quiere adquirir Databricks”

"Financings, IPOs, M&A: A Crazy Market"

Cualquiera que haya seguido un poco el mercado de startups lo sabe: el mercado está loco
Igual que el año pasado, este año datos y ML/IA son la categoría de inversión más caliente
Empresas que planean salir a bolsa

→ UiPath : empresa de automatización RPA e IA

→ Confluent : Kafka

→ C3.ai : plataforma de IA

→ Couchbase : base de datos no-SQL

→ SentinelOne : plataforma de seguridad de endpoints automatizada con IA

→ TuSimple : camiones autónomos

→ Zymergen : biofabricación

→ Recursion : empresa de desarrollo de fármacos impulsada por IA

→ Darktrace : ciberseguridad basada en IA

El aumento de los SPAC beneficiará a las empresas tecnológicas que están en la primera línea del mercado de IA (conducción autónoma, biotecnología, etc.)

"The 2021 MAD Landscape & What’s New this Year"

En el mapa de este año, “Analytics and Machine Intelligence” se separó en “Analytics” y “Machine Learning & Artificial Intelligence”
Se agregaron nuevas categorías

→ Infrastructure

⇨ Reverse ETL : productos que vuelven a enviar datos desde el data warehouse hacia aplicaciones SaaS

⇨ Data Observability : componente de DataOps enfocado en resolver problemas de calidad de datos con base en el linaje de datos (Lineage)

⇨ Privacy & Security : la privacidad de datos es cada vez más importante, y muchas startups han aparecido en esta categoría

→ Analytics

⇨ Data Catalogs & Discovery : la categoría más activa de los últimos 12 meses. Permite a los usuarios encontrar y administrar los datasets que necesitan

⇨ Augmented Analytics : las herramientas de BI aprovechan los avances en NLG/NLP para generar insights automáticamente y hacer que los datos sean accesibles para audiencias no técnicas

⇨ Metrics Stores : repositorio central para métricas clave del negocio. Nuevo ingreso en el data stack

⇨ Query Engines

→ Machine Learning and AI

⇨ La categoría de MLOps se subdividió en más detalle: Model Building, Feature Stores, Deployment and Production

→ Open Source

⇨ Se agregaron Format, Orchestration, Data Quality & Observability

Antes predominaban las startups de serie C en adelante o empresas públicas, pero este año se agregaron muchas compañías en etapa serie A/seed

"Principales tendencias en infraestructura de datos"

2020

→ Modern Data Stack pasó al mainstream

→ ETL vs ELT

→ ¿Automatización de la ingeniería de datos?

→ El auge del analista de datos

→ ¿Se fusionarán el data lake y el data warehouse?

→ Complejidad aún no resuelta

2021

→ Data Mesh

→ Un año muy movido para DataOps

→ Ahora toca tiempo real

→ Metrics Stores

→ Reverse ETL

→ Data Sharing

[Data Mesh]

Se origina en “How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh”, planteado por Zhamak Dehghani en 2019
Ganó mucho impulso entre 2020 y 2021
El concepto de data mesh es, en gran parte, una idea organizacional
Hasta ahora, la forma estándar de construir infraestructura y equipos de datos ha sido la centralización. Una gran plataforma administrada por un equipo de datos satisface las necesidades del negocio
Tiene muchas ventajas, pero también genera problemas como cuellos de botella
La idea es crear, mediante la descentralización, equipos de datos independientes que se encarguen cada uno de su dominio y proporcionen datos “como producto” a otras personas dentro de la organización

→ Es parecido al concepto de microservicios del que se habla en ingeniería de software

Tiene varias implicaciones

→ Si esto se vuelve posible, será una gran oportunidad para startups que construyan herramientas mission-critical sobre un data stack distribuido

Starburst, un SQL Query Engine que unifica consultas y análisis sobre múltiples repositorios, hizo rebranding de sí mismo como “motor analítico para data mesh”
Los motores de orquestación que gestionan pipelines complejos (como Airflow, Prefect y Dagster) se volverán todavía más mission-critical
Rastrear los datos en los repositorios y pipelines se volvió aún más indispensable desde la perspectiva de compliance y gobernanza, reforzando la necesidad de la data lineage (OpenLineage, DataKin)

[Un año muy movido para DataOps]

El concepto de DataOps estuvo dando vueltas durante años y recientemente por fin empezó a activarse de verdad
Existen varias definiciones

→ DevOps para el mundo de los datos

→ Todo lo necesario para construir y mantener pipelines de datos, encontrar los datasets correctos mediante un catálogo de datos, y permitir que productores y consumidores de datos realicen el trabajo que necesitan

En cualquier caso, al igual que DevOps, es una “combinación de metodología, procesos, personas, plataforma y herramientas”
En un contexto más amplio, las “herramientas y prácticas de ingeniería de datos” siguen bastante rezagadas respecto al nivel de automatización de la ingeniería de software
Cuanto más importantes se vuelven los datos y la IA, más se necesitan mejores herramientas y prácticas
Todos quieren convertirse en el “DataDog del mundo de los datos” (de hecho, DataDog también se usa en DataOps, pero en esencia está basado en ingeniería de software)
Hay varias subáreas, como Data observability, Data Lineage, Data Quality, Data Reliability Engineering y Data Access & Governance

[Ahora es tiempo real]

Los datos “en tiempo real” o “streaming” son datos que se procesan y consumen justo después de ser generados
Es lo opuesto al paradigma “batch”, que hasta ahora ha dominado la infraestructura de datos
El procesamiento de datos en tiempo real ha sido un tema candente desde los inicios de la era del big data, hace 10-15 años

→ En particular, la velocidad de procesamiento fue clave para impulsar el éxito de Spark frente a HadoopMR

Pero aunque durante años fue un mercado “a punto de explotar”, no terminaba de hacerlo
El gran éxito del IPO de Confluent demostró que los escépticos estaban equivocados
Y más allá de Confluent, todo el ecosistema de datos en tiempo real se aceleró
En particular, la “analítica en tiempo real” mostró mucha actividad

→ ClickHouse, creado por la rusa Yandex, estableció una empresa en EE. UU. y recibió una inversión de $50M

→ Imply, una plataforma de analítica en tiempo real basada en el open source Druid, recibió una inversión de $70M

[Metrics Stores]

En los últimos años aumentaron los datos de las empresas y la frecuencia y complejidad de su uso
A medida que creció la complejidad, también aumentaron los dolores de cabeza por inconsistencias de datos
Las métricas pueden desalinearse con facilidad incluso por pequeños cambios en dimensiones/definiciones u otros factores
Los datos solo son útiles cuando son precisos y confiables para los equipos que los usan
Los intentos de centralizar métricas llevaron al desarrollo de soluciones internas como Minerva de AirBnB: “Define Once, Use Anywhere”
Estandarizan las definiciones de métricas clave del negocio y de todas las dimensiones, y proporcionan a los stakeholders datasets precisos y analizables basados en esas definiciones
Con base en definiciones centralizadas de métricas, construyen confianza en los datos y ofrecen acceso cross-functional a las métricas para todos
Los metric stores

→ Se ubican encima del data warehouse y notifican datos a todas las aplicaciones downstream, incluidas plataformas de BI, herramientas de analítica y ciencia de datos, y aplicaciones operativas

→ Mantienen la consistencia de los datos, de modo que si cambia la lógica de negocio, se refleje automáticamente

Hay startups como Transform, Trace y Supergrain

[Reverse ETL]

En el modern data stack, Reverse ETL se convirtió en una categoría propia
Vuelve a mover datos desde el data warehouse hacia aplicaciones de negocio como CRM, sistemas de automatización de marketing y plataformas de soporte al cliente
La idea es permitir que las herramientas operativas reales aprovechen datos recientes enriquecidos desde otras aplicaciones de negocio
Muchas herramientas de Reverse ETL recibieron financiamiento: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic

[Data Sharing]

Está creciendo el intercambio de datos y la colaboración de datos no solo dentro de la empresa, sino en toda la organización ampliada
Se busca compartir datos con ecosistemas de proveedores, socios y clientes para visibilidad de la cadena de suministro, entrenamiento de modelos de machine learning y compartir planes de salida al mercado, entre otros casos
El intercambio de datos entre organizaciones es un tema central para los vendors de “data cloud”
En mayo de 2021, Google lanzó Analytics Hub. Permite compartir datos/insights/dashboards/modelos de machine learning dentro y fuera de la organización. También presentó DataShare para servicios financieros
El mismo día que Google, Databricks presentó Delta Sharing, un protocolo open source para compartir datos entre organizaciones
En junio de 2021, Snowflake presentó la función Secure Data Sharing a través de su data marketplace
Hay startups como Habr y Crossbeam

“Principales tendencias de ML/IA”

2020

Boom time for data science and machine learning platforms (DSML)
ML getting deployed and embedded
The Year of NLP

2021

Feature Stores
The rise of ModelOps
AI content generation
The continued emergence of a separate Chinese AI stack
La investigación en inteligencia artificial sigue avanzando rápidamente

→ DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP

[Feature Stores]

Desde que Uber presentó la idea en 2017, se han vuelto cada vez más comunes dentro del stack de machine learning

→ Empresas como Tecton, Rasgo, Logical Clocks y Kaskada levantaron rondas de financiamiento

En machine learning, una feature (variable o atributo) es una propiedad o característica medible individualmente, representada como una columna en un fragmento de datos

→ Los modelos de machine learning pueden usar desde una sola feature hasta millones de ellas

A medida que se usan modelos y pipelines cada vez más complejos, el trabajo se volvió cada vez más ad hoc
Ingenieros y científicos de datos a menudo gastan mucho tiempo reextrayendo features a partir de datos raw
La brecha entre los entornos de producción y de experimentación puede provocar inconsistencias en el rendimiento o comportamiento del modelo
Las organizaciones también se interesan por la gobernanza y la reproducibilidad de los modelos de machine learning, por lo que el aislamiento de las features lo vuelve aún más difícil en la práctica
Los feature stores fomentan la colaboración y eliminan estos silos
Reducen la complejidad y estandarizan y reutilizan features al ofrecer una única fuente de verdad tanto para entrenamiento como para producción
Almacenan features curadas dentro de la organización, ejecutan pipelines de datos que transforman datos crudos en valores de features y ofrecen acceso rápido a través de APIs

[The Rise of ModelOps]

Muchas empresas se dieron cuenta de que llevar modelos de la etapa experimental a producción es difícil, y también de que los modelos en uso requieren monitoreo continuo y reentrenamiento
MLOps aplica las mejores prácticas de DevOps. Simplifica el desarrollo y despliegue rápidos y continuos de modelos a gran escala
ModelOps es un superconjunto de MLOps. Apunta a una operación más rápida de todos los modelos de IA, incluido ML, en todas las etapas, desde el entrenamiento hasta producción
ModelOps abarca tanto herramientas como procesos, integra procesos, estandariza la orquestación de modelos y ofrece un repositorio centralizado para todos los modelos junto con capacidades integrales de gobernanza
Un ModelOps bien implementado proporciona un sistema unificado para desplegar, monitorear y gestionar todos los modelos, reduciendo riesgos y elevando el compliance

[AI Content Generation]

La IA ha madurado enormemente en los últimos años y se utiliza para crear contenido en todo tipo de medios, incluidos texto, imágenes, código y video
Se presentó OpenAI GPT-3. GitHub presentó GitHub Copilot, impulsado por OpenAI Codex
Aunque OpenAI se enfoca en modelos centrados en inglés, también hay muchas empresas trabajando en otros idiomas

→ Aleph Alpha de Alemania, AI21 Labs, PanGu de Huawei, HyperCLOVA de Naver

[La continua aparición de una pila de IA china separada]

China sigue desarrollándose como una potencia global de IA, junto con su propio mercado, el mayor productor de datos del mundo
TikTok, uno de los mejores algoritmos de recomendación, triunfó en Occidente, marcando la primera expansión real de tecnología de consumo de IA china en la región
Con China declarando su hegemonía en IA para 2030 y respaldándola financieramente, empezó a surgir una pila propia e independiente en China, que hasta entonces todavía utilizaba herramientas occidentales

3 comentarios

ehanmire 2021-11-11

He estado obteniendo buenas ideas de varias frases y reflexionando bastante sobre ellas.

Muchas gracias~

Por un momento pensé que los procesos y los datos son como los huesos y la sangre,

y que, aunque la sangre se acumule en algún lugar, se formen vasos sanguíneos y aparezcan tejidos,

al final una empresa no gana dinero por el movimiento,

fue una metáfora extraña que de repente se me vino a la mente.

sungwoo 2021-11-08

Muchas gracias por siempre organizar información súper valiosa de una manera tan clara.

xguru 2021-11-07

El panorama de Data & AI de 2020 https://es.news.hada.io/topic?id=2979