20 puntos por xguru 2023-02-13 | 1 comentarios | Compartir por WhatsApp
  • Quién soy y por qué me interesa → ingeniero original de BigQuery
  • Diapositiva de introducción obligatoria → la gráfica de "los datos explotan con el paso del tiempo" a la que todos hacen referencia
  • La mayoría de la gente no tiene tantos datos
  • El almacenamiento y el cómputo están separados, con un sesgo hacia el almacenamiento
  • El tamaño de las cargas de trabajo es menor que el tamaño total de los datos
  • La mayoría de los datos casi nunca se consultan
  • La frontera del big data sigue retrocediendo
  • Los datos son una responsabilidad (Liability)
    → Otra definición de big data es: "cuando el costo de mantener los datos es menor que el costo de averiguar qué tirar"
  • ¿Formas parte del 1% del big data?
    • ¿De verdad estás generando una cantidad enorme de datos?
    • Si es así, ¿realmente necesitas usar una cantidad enorme de datos al mismo tiempo?
    • Si es así, ¿los datos son tan grandes que no caben en un solo sistema?
    • Si es así, ¿estás seguro de que no eres solo un simple acumulador de datos (Hoarder)?
    • Si es así, ¿no sería mejor resumirlos?
  • Si respondes que no a хотя sea una de las preguntas de la lista anterior,
    en lugar de pensar en un "big data de escala aterradora" que quizá algún día llegues a tener,
    puede que sea mejor usar "herramientas de datos de nueva generación que te permitan manejar la escala real de los datos que sí tienes"

1 comentarios

 
xguru 2023-02-13

Hay que leer esto teniendo en cuenta que la empresa que escribió este artículo es MotherDuck, la empresa que crea DuckDB.
DuckDB - código abierto de DB OLAP embebida

El eslogan de esta empresa es "Big Data is DEAD. Long live EASY DATA."
Es una empresa que promociona su propia DB embebida diciendo: "Your laptop is faster than your data warehouse. Why wait for the Cloud?"

Claro, eso no significa que el artículo sea malo. En general, vale la pena leerlo una vez y estoy de acuerdo con buena parte de lo que dice.
Hay demasiadas empresas que dicen hacer "big data" con una cantidad de datos que ni siquiera es tan grande.