Resolver los problemas que surgen al migrar de HiveQL a Spark SQL

yechoi · 2023-09-05T18:35:38+09:00

El equipo de la plataforma de datos de LINE definió como dirección dejar de usar Hive de forma gradual y migrar al entorno de Spark Método de migración: cambiar el motor y, si hay problemas, modificar las consultas Casos de modificación de consultas: Cuando se usaban tablas temporales (CREATE TEMPORARY TABLE) Cuando se usaban conversiones implícitas de tipos que violaban la política ANSI (Store Assignment Policy) Cuando había problemas con una UDF que ya se estaba usando Cuando se introducía una nueva UDF Cuando se usaban operaciones de conjuntos sobre el tipo map Cuando era necesario eliminar varias particiones Después de la migración, faltaban ciertos datos específicos, por lo que se realizó troubleshooting Cinco tipos de problemas observados y cómo responder a ellos: Faltan algunos resultados después de ejecutar la consulta No se pueden leer datos cuando existen subdirectorios dentro del directorio de una partición Al ejecutarse un job, se elimina el directorio de una partición y fallan las consultas que usan esa partición Al leer datos de una partición y escribirlos en otra partición de la misma tabla, ocurre AnaylsisException("Cannot overwrite a path that is also being read from") Los resultados se duplican y se cargan al doble Además de OpenChat, planean migrar este año a Spark todos los cientos de consultas de varios dominios que actualmente tienen a cargo

El equipo de la plataforma de datos de LINE definió como dirección dejar de usar Hive de forma gradual y migrar al entorno de Spark
Método de migración: cambiar el motor y, si hay problemas, modificar las consultas
Casos de modificación de consultas:
- Cuando se usaban tablas temporales (CREATE TEMPORARY TABLE)
- Cuando se usaban conversiones implícitas de tipos que violaban la política ANSI (Store Assignment Policy)
- Cuando había problemas con una UDF que ya se estaba usando
- Cuando se introducía una nueva UDF
- Cuando se usaban operaciones de conjuntos sobre el tipo map
- Cuando era necesario eliminar varias particiones
Después de la migración, faltaban ciertos datos específicos, por lo que se realizó troubleshooting
Cinco tipos de problemas observados y cómo responder a ellos:
- Faltan algunos resultados después de ejecutar la consulta
- No se pueden leer datos cuando existen subdirectorios dentro del directorio de una partición
- Al ejecutarse un job, se elimina el directorio de una partición y fallan las consultas que usan esa partición
- Al leer datos de una partición y escribirlos en otra partición de la misma tabla, ocurre AnaylsisException("Cannot overwrite a path that is also being read from")
- Los resultados se duplican y se cargan al doble
Además de OpenChat, planean migrar este año a Spark todos los cientos de consultas de varios dominios que actualmente tienen a cargo

Resolver los problemas que surgen al migrar de HiveQL a Spark SQL

Lecturas relacionadas

Aún no hay comentarios.