Cómo construimos CI/CD para AWS RedShift
(medium.com)Cómo Here Mobility construyó CI/CD de base de datos para ingenieros y analistas de datos.
-
Antes, el equipo de analítica enviaba el data lake de S3 a RedShift con ETL en PySpark. Los scripts SQL para esto también estaban a cargo del equipo de analítica.
-
El código de PySpark no tenía problemas porque seguía el CI/CD de la aplicación, pero el código SQL para RedShift era difícil de probar, versionar y rastrear.
-
Desarrollaron una herramienta de CI/CD dedicada a RedShift llamada redCI, que permite control de versiones, validación de código, integración con pipelines de Jenkins y despliegue automático a RedShift.
-
redCI: puede conectarse a Redshift y Postgres con código Python, leer y ejecutar archivos de scripts compatibles con PSQL. Convierte la sintaxis de Redshift a PSQL. Gracias a esto, se pueden ejecutar pruebas unitarias.
-
Problemas que surgen durante la implementación real: RedShift está basado en Postgres 8, pero como las funciones compatibles son distintas, pueden surgir problemas. Lo resolvieron convirtiendo primero y luego ejecutándolo en Postgres levantado con Docker para probarlo.
2 comentarios
Here antes era Navteq, luego fue adquirida por Nokia y ahora es una empresa de servicios de mapas e información de ubicación adquirida por un consorcio alemán de Audi/BMW/Daimler AG.
Estaría bueno que liberaran
redCIcomo open source, pero parece que todavía no han llegado a ese punto.