Cómo usar DuckDB (DuckDB Python + Jupyter Lab)

(zzsza.github.io)

24 puntos por zzsza 2024-10-27 | 2 comentarios | Compartir por WhatsApp

Este es un artículo que resume cómo usar DuckDB, que recientemente está ganando mucha atención entre los proyectos open source de OLAP.

También incluye cómo se puede aprovechar en Jupyter Lab, y agregué algunas extensiones que me parecieron especialmente interesantes.

Se pueden consultar directamente archivos Parquet en S3 y usarlos fácilmente, así que parece que definitivamente puede reemplazar a Athena. También podrá reemplazar por completo las áreas donde se usa Pandas.

Índice

Introducción a DuckDB, ¿qué es DuckDB?
- BIG DATA IS DEAD
Objetivos de DuckDB y ventajas de DuckDB
- 1. Simple
- 1. Portable
- 1. Feature Rich
- 1. Fast
- 1. Extensible
- 1. Free
- 1. Thorough Testing
- Benchmark de rendimiento de DuckDB
- Instalación de DuckDB
Ejecutar DuckDB
- Ejecución simple (DuckDB Python)
- Carga de datos
- Ejecutarlo más cómodamente con jupysql
- Sintaxis SQL
- Secrets Manager
Extensiones de DuckDB
- bigquery
- h3
- pg_duckdb
- vss (Vector Similarity Search)
Formas de aprovechar DuckDB
- Ejemplo de uso en BigQuery
- Usarlo como un data warehouse local (reemplazo de Pandas)
- Como motor de análisis ligero para usar cuando se necesite
- Uso en la etapa de transformación dentro de pipelines ETL y ELT
- Consultar Parquet en GCS
Cierre
Material de referencia

2 comentarios

nottiger 2024-10-28

Gracias por el buen material.

zzsza 2024-10-31

¡¡Gracias por leer el artículo!!

Cómo usar DuckDB (DuckDB Python + Jupyter Lab)

Lecturas relacionadas

2 comentarios