- El equipo de la plataforma de datos de LINE definió como dirección dejar de usar Hive de forma gradual y migrar al entorno de Spark
- Método de migración: cambiar el motor y, si hay problemas, modificar las consultas
- Casos de modificación de consultas:
- Cuando se usaban tablas temporales (
CREATE TEMPORARY TABLE)
- Cuando se usaban conversiones implícitas de tipos que violaban la política ANSI (
Store Assignment Policy)
- Cuando había problemas con una UDF que ya se estaba usando
- Cuando se introducía una nueva UDF
- Cuando se usaban operaciones de conjuntos sobre el tipo map
- Cuando era necesario eliminar varias particiones
- Después de la migración, faltaban ciertos datos específicos, por lo que se realizó troubleshooting
- Cinco tipos de problemas observados y cómo responder a ellos:
- Faltan algunos resultados después de ejecutar la consulta
- No se pueden leer datos cuando existen subdirectorios dentro del directorio de una partición
- Al ejecutarse un job, se elimina el directorio de una partición y fallan las consultas que usan esa partición
- Al leer datos de una partición y escribirlos en otra partición de la misma tabla, ocurre
AnaylsisException("Cannot overwrite a path that is also being read from")
- Los resultados se duplican y se cargan al doble
- Además de OpenChat, planean migrar este año a Spark todos los cientos de consultas de varios dominios que actualmente tienen a cargo
Aún no hay comentarios.