Cómo usar DuckDB (DuckDB Python + Jupyter Lab)
(zzsza.github.io)Este es un artículo que resume cómo usar DuckDB, que recientemente está ganando mucha atención entre los proyectos open source de OLAP.
También incluye cómo se puede aprovechar en Jupyter Lab, y agregué algunas extensiones que me parecieron especialmente interesantes.
Se pueden consultar directamente archivos Parquet en S3 y usarlos fácilmente, así que parece que definitivamente puede reemplazar a Athena. También podrá reemplazar por completo las áreas donde se usa Pandas.
Índice
- Introducción a DuckDB, ¿qué es DuckDB?
- BIG DATA IS DEAD
- Objetivos de DuckDB y ventajas de DuckDB
-
- Simple
-
- Portable
-
- Feature Rich
-
- Fast
-
- Extensible
-
- Free
-
- Thorough Testing
- Benchmark de rendimiento de DuckDB
- Instalación de DuckDB
-
- Ejecutar DuckDB
- Ejecución simple (DuckDB Python)
- Carga de datos
- Ejecutarlo más cómodamente con jupysql
- Sintaxis SQL
- Secrets Manager
- Extensiones de DuckDB
- bigquery
- h3
- pg_duckdb
- vss (Vector Similarity Search)
- Formas de aprovechar DuckDB
- Ejemplo de uso en BigQuery
- Usarlo como un data warehouse local (reemplazo de Pandas)
- Como motor de análisis ligero para usar cuando se necesite
- Uso en la etapa de transformación dentro de pipelines ETL y ELT
- Consultar Parquet en GCS
- Cierre
- Material de referencia
2 comentarios
Gracias por el buen material.
¡¡Gracias por leer el artículo!!