3 puntos por xguru 2020-02-18 | 2 comentarios | Compartir por WhatsApp

Cómo Here Mobility construyó CI/CD de base de datos para ingenieros y analistas de datos.

  • Antes, el equipo de analítica enviaba el data lake de S3 a RedShift con ETL en PySpark. Los scripts SQL para esto también estaban a cargo del equipo de analítica.

  • El código de PySpark no tenía problemas porque seguía el CI/CD de la aplicación, pero el código SQL para RedShift era difícil de probar, versionar y rastrear.

  • Desarrollaron una herramienta de CI/CD dedicada a RedShift llamada redCI, que permite control de versiones, validación de código, integración con pipelines de Jenkins y despliegue automático a RedShift.

  • redCI: puede conectarse a Redshift y Postgres con código Python, leer y ejecutar archivos de scripts compatibles con PSQL. Convierte la sintaxis de Redshift a PSQL. Gracias a esto, se pueden ejecutar pruebas unitarias.

  • Problemas que surgen durante la implementación real: RedShift está basado en Postgres 8, pero como las funciones compatibles son distintas, pueden surgir problemas. Lo resolvieron convirtiendo primero y luego ejecutándolo en Postgres levantado con Docker para probarlo.

2 comentarios

 
xguru 2020-02-18

Here antes era Navteq, luego fue adquirida por Nokia y ahora es una empresa de servicios de mapas e información de ubicación adquirida por un consorcio alemán de Audi/BMW/Daimler AG.

 
xguru 2020-02-18

Estaría bueno que liberaran redCI como open source, pero parece que todavía no han llegado a ese punto.