8 puntos por yechoi 2023-09-05 | Aún no hay comentarios. | Compartir por WhatsApp
  • El equipo de la plataforma de datos de LINE definió como dirección dejar de usar Hive de forma gradual y migrar al entorno de Spark
  • Método de migración: cambiar el motor y, si hay problemas, modificar las consultas
  • Casos de modificación de consultas:
    • Cuando se usaban tablas temporales (CREATE TEMPORARY TABLE)
    • Cuando se usaban conversiones implícitas de tipos que violaban la política ANSI (Store Assignment Policy)
    • Cuando había problemas con una UDF que ya se estaba usando
    • Cuando se introducía una nueva UDF
    • Cuando se usaban operaciones de conjuntos sobre el tipo map
    • Cuando era necesario eliminar varias particiones
  • Después de la migración, faltaban ciertos datos específicos, por lo que se realizó troubleshooting
  • Cinco tipos de problemas observados y cómo responder a ellos:
    • Faltan algunos resultados después de ejecutar la consulta
    • No se pueden leer datos cuando existen subdirectorios dentro del directorio de una partición
    • Al ejecutarse un job, se elimina el directorio de una partición y fallan las consultas que usan esa partición
    • Al leer datos de una partición y escribirlos en otra partición de la misma tabla, ocurre AnaylsisException("Cannot overwrite a path that is also being read from")
    • Los resultados se duplican y se cargan al doble
  • Además de OpenChat, planean migrar este año a Spark todos los cientos de consultas de varios dominios que actualmente tienen a cargo

Aún no hay comentarios.

Aún no hay comentarios.