18 puntos por GN⁺ 2025-01-02 | 3 comentarios | Compartir por WhatsApp

Reseña general de toda la industria de bases de datos en 2024 por Andy Pavlo (profesor de CMU)

¡Mi base de datos, la licencio como yo quiero!

  • El dilema de las bases de datos y el código abierto:
    • Los DBMS de código abierto a menudo son desarrollados por empresas rentables respaldadas por VC.
    • Surge el problema de que los proveedores de nube ofrecen DBMS populares como servicio y obtienen mayores ingresos que la empresa desarrolladora.
    • MongoDB cambió a SSPL (Server Side Public License) en 2018 para intentar resolver este problema.
  • Cambio de licencia de Redis:
    • Redis Ltd. se preparó para una IPO en 2024 y cambió de la licencia BSD-3 a SSPL y a su propia Redis Source Available License.
    • En marzo de 2024 anunció el cambio de licencia al adquirir Speedb, un fork de RocksDB.
    • Reacción de la comunidad:
      • Esa misma semana se anunciaron los proyectos fork Valkey y Redict.
      • Valkey comenzó en Amazon, con participación de Google, Oracle y otros, y se integró a la Linux Foundation.
    • Posible regreso del fundador de Redis:
      • En diciembre de 2024 se anunció que el fundador de Redis colaboraría con Redis Ltd. para buscar una reunificación de la comunidad.
  • Retorno de Elasticsearch en licencias:
    • Elastic N.V. cambió en 2021 a SSPL y Elastic License, lo que generó conflicto con Amazon.
    • Amazon respondió con el fork OpenSearch.
    • En agosto de 2024, Elastic N.V. volvió a AGPL e hizo referencia a una canción de Kendrick Lamar.
    • En septiembre de 2024, Amazon transfirió el proyecto OpenSearch a la Linux Foundation.
  • La opinión de Andy:
    • Críticas a Redis:
      • Señala bajo rendimiento, transacciones falsas y problemas con un lenguaje de consultas ineficiente.
      • Redis, con muchos sustitutos disponibles, está en una posición difícil para resistir el rechazo de la comunidad.
    • Un patrón parecido al de Elasticsearch:
      • Cambio de licencia → aparición de forks → regreso a una licencia de código abierto.
    • Por qué Redis y Elasticsearch reciben más rechazo:
      • En Redis, los fundadores no eran los creadores originales y se trata de un sistema con muchos contribuidores externos, lo que genera debate sobre una “falta de legitimidad”.
      • Esto provocó una reacción similar al cambio de licencia de Terraform por parte de HashiCorp en 2023.
    • Influencia de los proveedores de nube:
      • Los proveedores de nube integran protocolos de DBMS de código abierto en DBMS existentes o debilitan la base de ingresos de los ISV a través de servicios propios.
      • Ejemplo: AWS añadió el protocolo InfluxDB v2 a Timestream DBMS y anunció un servicio compatible con Valkey 30% más barato que su servicio compatible con Redis.
  • Actualizaciones adicionales:
    • AWS ofrece un servicio administrado del DBMS InfluxDB v2 en colaboración con Influx Data.
    • ScyllaDB suspendió en diciembre de 2024 su versión AGPL de código abierto y cambió su versión enterprise a un modelo de “código disponible”.

La competencia interminable entre Databricks y Snowflake

  • Competencia de LLM abiertos:
    • Databricks:
      • En marzo de 2024 anunció el LLM de código abierto DBRX.
      • Fue desarrollado por el equipo Mosaic, adquirido en 2023 por $1.3 mil millones, y tiene 132 mil millones de parámetros.
      • Se invirtieron $10 millones en el desarrollo del modelo.
    • Snowflake:
      • En abril de 2024 anunció el LLM de código abierto Arctic.
      • Con 480 mil millones de parámetros, afirma superar a DBRX en tareas “enterprise” como generación de SQL.
      • Se invirtieron $2 millones en el desarrollo del modelo.
      • El anuncio de Snowflake se centró más en compararse con DBRX que con otros LLM, dejando clara la rivalidad.
  • La guerra de los catálogos de metadatos:
    • HCatalog de Hive se consolidó como estándar de los data lakes en la década de 2010.
    • Iceberg de Netflix y Hudi de Uber aparecieron a finales de la década de 2010 y crecieron como proyectos de Apache.
    • Databricks:
      • Ofrece la plataforma DeltaLake y un servicio de catálogo propietario llamado Unity.
      • En junio de 2024, el mismo día en que el CEO de Snowflake anunció el servicio de catálogo Polaris, adquirió por $2 mil millones a Tabular, empresa que daba soporte a Iceberg.
      • La semana siguiente anunció que abriría el catálogo Unity como código abierto.
    • Snowflake:
      • Desde anunciar soporte para Iceberg en 2022, lo ha ido ampliando gradualmente.
      • Mientras negociaba la compra de Tabular, Databricks se le adelantó.
  • La opinión de Andy:
    • Diferencia frente a la competencia tradicional:
      • A diferencia de la vieja competencia de rendimiento entre Oracle e Informix, la pelea entre Snowflake y Databricks se centra en el ecosistema y las herramientas de gestión de datos.
      • Los motores de ejecución vectorizada ahora se consideran una tecnología básica.
      • Hoy importan más cualidades adicionales como facilidad de uso, compatibilidad con herramientas e integración con AI/LLM.
    • Beneficio para el consumidor:
      • La competencia feroz implica mejores productos y tecnología.
      • Polaris de Snowflake pasó a ser un proyecto Apache, lo que mejora el acceso a la tecnología.
      • Como resultado, se espera avance tecnológico y reducción de precios.
    • Comparación positiva:
      • A diferencia de una simple competencia de egos entre CEOs como la de Oracle y Salesforce, la disputa entre Snowflake y Databricks se traduce en innovación real y mayor competitividad.

El esfuerzo por integrar DuckDB en todas partes

  • El crecimiento de DuckDB:
    • DuckDB se ha convertido en la nueva opción predeterminada para consultas de análisis de datos.
    • Antes ese rol lo ocupaba Pandas, pero DuckDB le ha quitado ese lugar gracias a su excelente portabilidad y rendimiento.
    • Cada vez más DBMS intentan integrar DuckDB para reforzar el soporte a cargas de trabajo OLAP.
    • En 2024 se anunciaron cuatro nuevas extensiones para integrar Postgres y DuckDB.
  • Anuncios de extensiones Postgres-DuckDB:
    • Mayo de 2024 - Crunchy Data:
      • Anunció un puente propietario que enruta consultas OLAP de Postgres hacia DuckDB.
      • También añadió una extensión que acelera consultas de PostGIS aprovechando las capacidades de análisis geoespacial de DuckDB.
    • Junio de 2024 - ParadeDB:
      • Anunció la extensión de código abierto pg_analytics.
      • Antes usaba pg_lakehouse basado en DataFusion, pero cambió a DuckDB.
    • Agosto de 2024 - pg_duck:
      • Extensión DuckDB oficialmente respaldada desde el GitHub de DuckDB Labs.
      • Comenzó como una colaboración entre MotherDuck, Hydra, Microsoft y Neon, pero Microsoft y Neon quedaron fuera del proyecto por disputas sobre el control del desarrollo.
      • Actualmente MotherDuck y Hydra la mantienen en conjunto.
    • Noviembre de 2024 - pg_mooncake:
      • Se anunció una extensión que permite escribir datos en tablas Iceberg a través de Postgres y soporta transacciones.
  • La opinión de Andy:
    • Ventajas de DuckDB:
      • La mayoría de las consultas OLAP escanean menos de 100MB de datos, y DuckDB puede manejar eso perfectamente en una sola instancia.
      • Gracias a su gran portabilidad y conveniencia, se ha difundido rápidamente en la comunidad de Postgres.
      • Integra en una sola extensión diversos ecosistemas de datos, incluido el acceso a datos en Iceberg y S3.
      • Puede ofrecer analítica de alto rendimiento y reemplazar data warehouses costosos.
    • La extensibilidad de Postgres:
      • Postgres fue diseñado desde la década de 1980 con la extensibilidad y la flexibilidad como objetivos.
      • Su API de “hooks” (introducida en 2006) permitió construir el ecosistema de extensiones más amplio y diverso.
      • Sin embargo, también existe el riesgo de interferencia entre extensiones y comportamientos incorrectos.
    • La integración de DuckDB con Postgres:
      • Las extensiones existentes de Postgres (Citus, Timescale) solo ofrecían almacenamiento columnar, resolviendo el problema de manera parcial.
      • DuckDB ofrece tanto almacenamiento columnar como procesamiento de consultas vectorizado.
    • Mención figurativa:
      • Se menciona la posibilidad de hacer un chiste de turducken con el elefante de Postgres y DuckDB, pero se omite para evitar sanciones de la universidad.

Random Happenings in the Database World

Lanzamientos principales:

  • Amazon Aurora DSQL:
    • AWS anunció un nuevo DBMS “similar a Spanner”.
    • Basado en un servicio de log distribuido y ordenamiento por timestamps (Time Sync).
    • Usa el nombre Aurora, pero no comparte código con Aurora Postgres RDS existente.
  • CedarDB:
    • Un DBMS comercial derivado de un fork del código de Umbra.
    • Thomas Neumann, fundador de Umbra, sigue enfocado en investigación y se mantiene en la cima del leaderboard de Clickbench.
  • Google Bigtable:
    • Bigtable, pionero de NoSQL, añadió soporte para SQL en 2024.
  • Limbo:
    • Turso anunció un proyecto para reescribir por completo SQLite en Rust.
    • La fortaleza de SQLite no está solo en el código, sino en la ingeniería de pruebas que garantiza que funcione correctamente en cualquier entorno.
    • Introdujo pruebas deterministas en colaboración con exingenieros de FoundationDB.
  • Microsoft Garnet:
    • Almacén clave-valor compatible con Redis, sucesor de FASTER.
    • Ofrece paralelismo de consultas, soporte para DB fuera de memoria y transacciones reales.
  • MySQL v9:
    • Nueva versión lanzada después de 6 años.
    • Presenta un problema que causa fallos cuando la base de datos tiene más de 8,000 tablas.
    • Carece de funciones importantes, y Oracle está más enfocada en el servicio MySQL Heatwave.
  • Prometheus v3:
    • Actualización importante después de 7 años.
    • Hay tantas alternativas reemplazables que el uso del Prometheus original ha disminuido.

Adquisiciones principales:

  • Alteryx → Private Equity: pocos usuarios la usan, sin mayor opinión.
  • MariaDB → Private Equity: se espera que ayude a resolver problemas de gestión.
  • OrioleDB → Supabase: mejora la antigua arquitectura de almacenamiento de Postgres.
  • PeerDB → ClickHouse: herramienta ETL para mover datos de Postgres a ClickHouse.
  • PopSQL → Timescale: adquisición de una UI avanzada de editor SQL.
  • Speedb → Redis Ltd.: fork de RocksDB con potencial para añadir almacenamiento de datos en disco.
  • Rockset → OpenAI: cierre del servicio DBaaS en septiembre de 2024.
  • Tabular → Databricks: adquisición para fortalecer el ecosistema Iceberg.
  • Verta.ai → Cloudera: Cloudera sigue viva.
  • Warpstream → Confluent: reescritura de Kafka en golang con integración a S3.

Inversiones principales:

  • Databricks: serie J de $1 mil millones.
  • DBOS: ronda semilla de $8.5 millones.
  • LanceDB: ronda semilla de $8 millones.
  • SDF: ronda semilla de $9 millones.
  • SpiceDB: serie A de $12 millones.
  • TigerBeetle: serie A de $24 millones.

Cierres principales:

  • Amazon QLDB: ni siquiera Amazon logró monetizarla.
  • OtterTune: termina un recorrido de 10 años entre investigación y startup. Debido a problemas con una empresa específica, se prohibió contratar estudiantes de CMU-DB.

La opinión de Andy:

  • La gran recaudación de Databricks:
    • Con su serie J de $1 mil millones en 2024, volvió a romper el récord de mayor financiamiento en la industria de bases de datos.
    • Los fondos se usarán para recomprar acciones de empleados y resolver la molestia interna por el retraso de la IPO.
    • Después de la IPO de Databricks, es posible que varias startups de bases de datos también se preparen para salir a bolsa.
  • Perspectiva para el próximo año:
    • La baja en las tasas de interés podría dar nuevas oportunidades de financiamiento a empresas que ya levantaron grandes sumas, como CockroachDB, Starburst e Imply.
    • dbtLabs ya es vista como una empresa bien posicionada.

Larry Ellison no se detiene: movimientos sorprendentes en 2024

  • Principales logros de Larry Ellison en 2024:
    • Al cumplir 80 años, siguió moviéndose con la misma audacia.
    • Se convirtió en la tercera persona más rica del mundo gracias al alza de las acciones de Oracle.
      • En marzo de 2024, ganó $15 mil millones en un solo día por el salto de la acción de Oracle.
    • En julio, compró Paramount Studios por $6 mil millones como regalo para su hijo (de su tercera esposa).
    • Adquirió un resort en Palm Beach por $277 millones, sumando otro activo de lujo.
  • Apoyo al equipo de fútbol americano de la Universidad de Michigan:
    • En noviembre de 2024, donó $12 millones a una campaña de apoyo al programa de fútbol americano de la Universidad de Michigan.
      • Esa donación fue decisiva para fichar al mejor quarterback, transferido de LSU a Michigan.
      • El comunicado de la universidad mencionó el mérito de “Larry y su esposa Jolin”.
    • Fue el primer gran vínculo de Larry con la Universidad de Michigan, pese a no tener antecedentes académicos allí.
  • La identidad de “Jolin”:
    • Reportes de prensa revelaron que la nueva esposa de Larry era Jolin (Curran) Zhu.
      • Larry fue visto asistiendo a partidos de tenis, y Jolin llevaba una gorra de Michigan.
      • Dos semanas después, la noticia del matrimonio apareció en las noticias de las 5 a. m., confirmando su identidad.
  • La perspectiva de Andy:
    • El apoyo de Larry a la Universidad de Michigan tiene un significado especial.
      • Un exalumno de CMU-DB de Andy actualmente trabaja como profesor en el grupo de bases de datos de la Universidad de Michigan.
    • Felicita a Larry por su nuevo amor y matrimonio, y subraya lo difícil que es encontrar amor en la sociedad moderna.
      • Valora mucho la resiliencia y actitud positiva de Larry, quien volvió a encontrar el amor pese a sus divorcios pasados.
  • El sexto matrimonio de Larry:
    • Tras Melanie Craft (divorcio en 2010) y Nikita Kahn (divorcio en 2020), volvió a casarse y sorprendió a todos.
    • Su matrimonio con Jolin Zhu vuelve a demostrar su determinación de perseguir la felicidad.

Conclusión

  • Planes de año nuevo y situación actual:
    • Quería recibir el año nuevo sano por primera vez en 3 años, pero su hija le contagió COVID y comenzó el año en cama.
    • Gracias al refuerzo aplicado en septiembre de 2024 y al tratamiento con Paxlovid, se está recuperando sin mayores problemas.
  • El cierre de OtterTune:
    • Le decepciona que el proyecto OtterTune haya terminado.
    • Aprendió mucho colaborando con mucha gente excelente.
    • Agradece a Intel Capital y Race Capital por haberlo apoyado hasta el final.
    • Está ideando una nueva startup (pista: otra vez relacionada con bases de datos).
  • Un nuevo comienzo en CMU:
    • Regresó a Carnegie Mellon University (CMU) y retomó la investigación de tiempo completo.
    • Está preparando proyectos de investigación interesantes junto con Jignesh Patel.
    • Planea abrir un nuevo curso de optimización de consultas este semestre.
    • Como Wikipedia eliminó en septiembre de 2024 el artículo sobre él, está buscando formas de aumentar las citas de sus trabajos de investigación.
  • Apoyo a DJ Mooshoo:
    • Sigue apoyando a DJ Mooshoo, encarcelado en Cook County.
    • Espera su liberación en 2025.
  • Mención a ByteBase:
    • Agradece el artículo de ByteBase sobre la reseña de herramientas de bases de datos en 2024 (Database Tools in 2024: A Year in Review).
    • Antes pedían permiso para traducir al chino su artículo anual sobre bases de datos, pero este año no esperaron y escribieron su propio artículo con un tema y título parecidos.

3 comentarios

 
daumkakao 2025-01-04

Muchas gracias por el buen artículo.

 
xguru 2025-01-02

Me salté 2023. En ese momento era un enlace de OtterTune, pero como ya cerró, ahora lo moví a mi blog personal.

Reseña de las bases de datos de 2022
Reseña de las bases de datos de 2021

 
GN⁺ 2025-01-02
Opiniones de Hacker News
  • Hay una opinión de que en el video de Andy la crítica a la API de comandos de Redis es débil. Se sostiene que se puede criticar la API de Redis, pero que hacen falta argumentos más sólidos. Se enfatiza que hay que entender cómo se usa Redis y cuáles son sus ventajas.

  • Cuando el código de Greenplum se cerró, los desarrolladores originales crearon un fork de código abierto llamado Cloudberry, que fue aceptado como proyecto de Apache. Cloudberry se sincronizó con Postgres 14, pero Greenplum sigue estancado en Postgres 12.

  • Hay una crítica personal a Redis. Se afirma que Redis es lento, que tiene transacciones falsas y que la sintaxis de consulta es compleja. Se menciona que en CMU Dragonfly mostró un mejor rendimiento.

  • Hay una opinión de que DuckDB es una herramienta excelente. Se dice que fue impresionante una charla del creador de DuckDB en CMU explicando por qué los científicos de datos no usan RDBMS.

  • Se considera extraño que no se haya mencionado SQL Server ni sus variantes de Azure. Se dice que domina en ciertos ámbitos y que está clasificado como el tercero más popular en DBEngines.

  • Hay una opinión de que las quejas sobre Elastic y Redis, a diferencia de MongoDB, se deben a la licencia y al tamaño de la comunidad de contribuidores. Licencias restrictivas como AGPL dificultan el uso embebido, y sin una comunidad de contribuidores es difícil hacer un fork.

  • Hay una opinión de que no hubo intentos de fork tras los cambios de licencia de MongoDB, Neo4j, Kafka y CockroachDB porque a la gente en realidad no le importaban demasiado esos proyectos.

  • Hay una opinión de que Amazon puede ofrecer bases de datos como servicio, pero que mucha gente no quiere servicios administrados por AWS. Se dice que muchos equipos prefieren soluciones basadas en k8s y que hay una tendencia a moverse hacia implementaciones OSS principales.

  • En respuesta a la opinión de que nunca habían conocido a alguien que usara Alteryx, se explica que Alteryx es una herramienta gráfica de ELT + Analytics que requiere muy poco código y tiene gran compatibilidad, por lo que puede usarse junto con otras bases de datos o archivos.

  • Se expresa sorpresa por la noticia de que una startup de bases de datos que recaudó 12M fracasó en solo tres años. Se menciona que es un caso que muestra lo difícil que es triunfar con una startup de bases de datos. También se considera extraño que, a pesar de tener una idea para mejorar el rendimiento de DB con IA, no haya encontrado más inversionistas.