El big data ha muerto

xguru · 2023-02-13T11:07:01+09:00

Quién soy y por qué me interesa → ingeniero original de BigQuery Diapositiva de introducción obligatoria → la gráfica de "los datos explotan con el paso del tiempo" a la que todos hacen referencia La mayoría de la gente no tiene tantos datos El almacenamiento y el cómputo están separados, con un sesgo hacia el almacenamiento El tamaño de las cargas de trabajo es menor que el tamaño total de los datos La mayoría de los datos casi nunca se consultan La frontera del big data sigue retrocediendo Los datos son una responsabilidad (Liability) → Otra definición de big data es: "cuando el costo de mantener los datos es menor que el costo de averiguar qué tirar" ¿Formas parte del 1% del big data? ¿De verdad estás generando una cantidad enorme de datos? Si es así, ¿realmente necesitas usar una cantidad enorme de datos al mismo tiempo? Si es así, ¿los datos son tan grandes que no caben en un solo sistema? Si es así, ¿estás seguro de que no eres solo un simple acumulador de datos (Hoarder)? Si es así, ¿no sería mejor resumirlos? Si respondes que no a хотя sea una de las preguntas de la lista anterior, en lugar de pensar en un "big data de escala aterradora" que quizá algún día llegues a tener, puede que sea mejor usar "herramientas de datos de nueva generación que te permitan manejar la escala real de los datos que sí tienes"

(motherduck.com)

20 puntos por xguru 2023-02-13 | 1 comentarios | Compartir por WhatsApp

Quién soy y por qué me interesa → ingeniero original de BigQuery
Diapositiva de introducción obligatoria → la gráfica de "los datos explotan con el paso del tiempo" a la que todos hacen referencia
La mayoría de la gente no tiene tantos datos
El almacenamiento y el cómputo están separados, con un sesgo hacia el almacenamiento
El tamaño de las cargas de trabajo es menor que el tamaño total de los datos
La mayoría de los datos casi nunca se consultan
La frontera del big data sigue retrocediendo
Los datos son una responsabilidad (Liability)
→ Otra definición de big data es: "cuando el costo de mantener los datos es menor que el costo de averiguar qué tirar"
¿Formas parte del 1% del big data?
- ¿De verdad estás generando una cantidad enorme de datos?
- Si es así, ¿realmente necesitas usar una cantidad enorme de datos al mismo tiempo?
- Si es así, ¿los datos son tan grandes que no caben en un solo sistema?
- Si es así, ¿estás seguro de que no eres solo un simple acumulador de datos (Hoarder)?
- Si es así, ¿no sería mejor resumirlos?
Si respondes que no a хотя sea una de las preguntas de la lista anterior,
en lugar de pensar en un "big data de escala aterradora" que quizá algún día llegues a tener,
puede que sea mejor usar "herramientas de datos de nueva generación que te permitan manejar la escala real de los datos que sí tienes"

1 comentarios

xguru 2023-02-13

Hay que leer esto teniendo en cuenta que la empresa que escribió este artículo es MotherDuck, la empresa que crea DuckDB.
DuckDB - código abierto de DB OLAP embebida

El eslogan de esta empresa es "Big Data is DEAD. Long live EASY DATA."
Es una empresa que promociona su propia DB embebida diciendo: "Your laptop is faster than your data warehouse. Why wait for the Cloud?"

Claro, eso no significa que el artículo sea malo. En general, vale la pena leerlo una vez y estoy de acuerdo con buena parte de lo que dice.
Hay demasiadas empresas que dicen hacer "big data" con una cantidad de datos que ni siquiera es tan grande.

El big data ha muerto

Lecturas relacionadas

1 comentarios