- Quién soy y por qué me interesa → ingeniero original de BigQuery
- Diapositiva de introducción obligatoria → la gráfica de "los datos explotan con el paso del tiempo" a la que todos hacen referencia
- La mayoría de la gente no tiene tantos datos
- El almacenamiento y el cómputo están separados, con un sesgo hacia el almacenamiento
- El tamaño de las cargas de trabajo es menor que el tamaño total de los datos
- La mayoría de los datos casi nunca se consultan
- La frontera del big data sigue retrocediendo
- Los datos son una responsabilidad (Liability)
→ Otra definición de big data es: "cuando el costo de mantener los datos es menor que el costo de averiguar qué tirar"
- ¿Formas parte del 1% del big data?
- ¿De verdad estás generando una cantidad enorme de datos?
- Si es así, ¿realmente necesitas usar una cantidad enorme de datos al mismo tiempo?
- Si es así, ¿los datos son tan grandes que no caben en un solo sistema?
- Si es así, ¿estás seguro de que no eres solo un simple acumulador de datos (Hoarder)?
- Si es así, ¿no sería mejor resumirlos?
- Si respondes que no a хотя sea una de las preguntas de la lista anterior,
en lugar de pensar en un "big data de escala aterradora" que quizá algún día llegues a tener,
puede que sea mejor usar "herramientas de datos de nueva generación que te permitan manejar la escala real de los datos que sí tienes"
1 comentarios
Hay que leer esto teniendo en cuenta que la empresa que escribió este artículo es MotherDuck, la empresa que crea
DuckDB.DuckDB - código abierto de DB OLAP embebida
El eslogan de esta empresa es "Big Data is DEAD. Long live EASY DATA."
Es una empresa que promociona su propia DB embebida diciendo: "Your laptop is faster than your data warehouse. Why wait for the Cloud?"
Claro, eso no significa que el artículo sea malo. En general, vale la pena leerlo una vez y estoy de acuerdo con buena parte de lo que dice.
Hay demasiadas empresas que dicen hacer "big data" con una cantidad de datos que ni siquiera es tan grande.