1 puntos por GN⁺ 2024-05-28 | 1 comentarios | Compartir por WhatsApp

El big data ha muerto

¿Quién soy y por qué escribo esto?

  • Durante más de 10 años he enfatizado la importancia del big data
  • Como ingeniero fundador de Google BigQuery, promoví las tecnologías para trabajar con big data
  • A través de conversaciones con clientes y análisis de producto, me di cuenta de que la mayoría de las personas en realidad no manejan big data

La diapositiva de introducción obligatoria

  • Muchas presentaciones de productos de big data transmiten el mensaje de que "el big data se acerca"
  • Sin embargo, en la práctica la mayoría de las aplicaciones no necesita procesar datos a gran escala
  • Los sistemas de bases de datos tradicionales están volviendo a ganar popularidad

La mayoría de la gente no tiene tantos datos

  • La mayoría de los clientes tiene 1 TB de datos o menos
  • Incluso los clientes con grandes volúmenes de datos en realidad usan solo una pequeña parte
  • El tamaño de los datos sigue la ley de Pareto, y la mayor parte de los datos se concentra en unos pocos clientes

Sesgo hacia el almacenamiento en la separación entre almacenamiento y cómputo

  • Las plataformas modernas de datos en la nube separan el almacenamiento del cómputo
  • La capacidad de almacenamiento crece rápidamente, pero la necesidad de cómputo no cambia mucho
  • Puede que no se necesite procesamiento distribuido para manejar conjuntos de datos grandes

El tamaño de las tareas es menor que el tamaño total de los datos

  • La mayoría de las tareas analíticas procesa conjuntos de datos pequeños
  • Las consultas que procesan grandes volúmenes de datos son poco frecuentes y se usan principalmente para generar reportes
  • Se prefieren consultas pequeñas para reducir el costo del procesamiento de datos

La mayoría de los datos casi nunca se consulta

  • La mayoría de los datos se consulta con frecuencia solo dentro de las 24 horas posteriores a su creación
  • Los datos antiguos casi no se consultan y solo ocupan espacio de almacenamiento

La frontera del big data sigue retrocediendo

  • La definición de "big data" cambia con el tiempo
  • El hardware moderno puede procesar datos mucho más grandes que en el pasado

Los datos son una responsabilidad

  • El costo de conservar datos va más allá del simple costo de almacenamiento
  • Hay que considerar el cumplimiento regulatorio y la responsabilidad legal
  • Los datos antiguos son difíciles de mantener

¿Formas parte del 1% del big data?

  • La mayoría de las personas no necesita trabajar con big data
  • Hay que considerar si los datos realmente son grandes, si se pueden resumir, etc.

Opinión de GN⁺

  • Importancia de la gestión de datos: Más que el tamaño de los datos, lo importante es su calidad y su gestión. Eliminar datos innecesarios y enfocarse en los datos importantes es más eficiente.
  • Enfoque realista: La mayoría de las empresas no necesita tecnologías de big data. Es importante elegir herramientas que se ajusten al tamaño real de los datos y a las necesidades concretas.
  • Reducción de costos: En la nube, separar almacenamiento y cómputo puede reducir costos. Disminuir el procesamiento innecesario de datos es más económico.
  • Responsabilidad legal: Conservar datos implica responsabilidad legal. Hay que prestar atención al cumplimiento normativo y a la seguridad de los datos.
  • Avance tecnológico: Los avances en hardware y software hacen posible procesar datos que antes no se podían manejar. Aprovechar la tecnología más reciente puede mejorar la eficiencia.

1 comentarios

 
GN⁺ 2024-05-28
Opiniones de Hacker News
  • Experiencia contratando científicos de datos: En una pregunta sobre una arquitectura para manejar 6 TiB de datos, el candidato más impresionante fue quien entendió que podía resolverse con un smartphone o un HDD barato.

  • Comparación entre MongoDB y PostgreSQL: MongoDB no tiene nada mejor que PostgreSQL, y las soluciones de big data suelen usar principalmente bases de datos columnares, Map/Reduce, Cassandra y similares.

  • Plan para el éxito: La mayoría de los negocios no se convierten en unicornios, pero hay que apuntar a eso, y se necesita una arquitectura que considere la escalabilidad desde el inicio.

  • Tamaño de los datos y frecuencia de las consultas: La mayoría de los datos no son grandes y la mayoría de las consultas son de pequeña escala. Al principio, hace falta trabajar en reducir los datos.

  • Big data y costo regulatorio: El costo de los datos está aumentando debido a la regulación.

  • Experiencia analizando big data: Según la experiencia en el Gran Colisionador de Hadrones, el almacenamiento local rápido era mejor que una red global de supercomputadoras.

  • La paradoja del big data: Había una tendencia a evitar optimizaciones básicas de software para presumir los requisitos de hardware.

  • Contenido informativo de los datos: Los datos crecen exponencialmente, pero su contenido informativo no. En finanzas, la mayor parte de los datos es redundante, por lo que hace falta reducción de dimensionalidad.

  • Definición de big data: Big data no es simplemente un problema de capacidad de almacenamiento o velocidad de procesamiento, sino un problema de capacidad cognitiva para integrar y comprender los datos.

  • Sobreingeniería en las herramientas de big data: En muchos casos, un data warehouse y un data lake en escala de gigabytes o terabytes son suficientes, y una arquitectura simple ofrece mejor rendimiento.

  • La moda del big data: La moda del big data ya terminó, algo común en industrias sensibles a las tendencias.

  • Big data y el ego de los fundadores: El principal impulsor del big data era el ego de los fundadores, y al principio basta con una sola base de datos SQLite.

  • El problema del procesamiento en big data: El big data es más un problema de procesamiento que de almacenamiento, y la mayoría de las consultas solo tratan datos recientes. Si procesar todos los datos fuera más fácil, queda la duda de por qué la mayoría de las empresas seguiría consultando solo datos pequeños.