9 puntos por xguru 2020-09-09 | Aún no hay comentarios. | Compartir por WhatsApp
  • Presto se usa a gran escala: 40 mil servidores, escaneo de ~1 exabyte de datos al día, más del 80% son ETL nuevos

→ Separación de cómputo y almacenamiento

  • Presto funcionaba bien, pero para consultas más rápidas (menos de 1 segundo) desarrollaron Raptor

→ Caché en SSD local, metastore a nivel de archivo

→ Se volvieron a unir cómputo y almacenamiento → escalar y administrar se volvió difícil

  • Desde el otoño pasado comenzaron a desarrollar un reemplazo de Raptor modificando Alluxio: Alluxio Local Cache

→ Rendimiento similar a Raptor, pero sin necesidad de cachear en SSD local

→ Alluxio es un sistema de archivos distribuido virtual que sirve como puente intermedio basado en memoria para conectar varios motores de cómputo con múltiples almacenamientos

  • Alluxio Local Cache

→ Incluido en el release oficial a partir de la versión 2.2

→ Una biblioteca que puede integrarse dentro de la JVM de Presto Server sin necesidad de usar Alluxio completo

  • Instalaron Alluxio Local Cache en casi toda la flota de Presto de Facebook, retirando en gran parte Raptor

→ Los datos de Facebook están disponibles en formato de archivo ORC y se accede a ellos mediante la interfaz HDFS

→ También usan SSD local, pero si no está en caché, se puede acceder al almacenamiento remoto

→ Mejora de rendimiento de entre 30% y 50% en Presto

→ Reducción de 57% en el acceso a almacenamiento remoto frente a Raptor

→ La tasa de aciertos de Alluxio Cache supera el 90%

→ Está previsto eliminar por completo Raptor en un plazo de 6 meses

Aún no hay comentarios.

Aún no hay comentarios.