Cómo Facebook acelera SQL
(datanami.com)- Presto se usa a gran escala: 40 mil servidores, escaneo de ~1 exabyte de datos al día, más del 80% son ETL nuevos
→ Separación de cómputo y almacenamiento
- Presto funcionaba bien, pero para consultas más rápidas (menos de 1 segundo) desarrollaron Raptor
→ Caché en SSD local, metastore a nivel de archivo
→ Se volvieron a unir cómputo y almacenamiento → escalar y administrar se volvió difícil
- Desde el otoño pasado comenzaron a desarrollar un reemplazo de Raptor modificando Alluxio: Alluxio Local Cache
→ Rendimiento similar a Raptor, pero sin necesidad de cachear en SSD local
→ Alluxio es un sistema de archivos distribuido virtual que sirve como puente intermedio basado en memoria para conectar varios motores de cómputo con múltiples almacenamientos
- Alluxio Local Cache
→ Incluido en el release oficial a partir de la versión 2.2
→ Una biblioteca que puede integrarse dentro de la JVM de Presto Server sin necesidad de usar Alluxio completo
- Instalaron Alluxio Local Cache en casi toda la flota de Presto de Facebook, retirando en gran parte Raptor
→ Los datos de Facebook están disponibles en formato de archivo ORC y se accede a ellos mediante la interfaz HDFS
→ También usan SSD local, pero si no está en caché, se puede acceder al almacenamiento remoto
→ Mejora de rendimiento de entre 30% y 50% en Presto
→ Reducción de 57% en el acceso a almacenamiento remoto frente a Raptor
→ La tasa de aciertos de Alluxio Cache supera el 90%
→ Está previsto eliminar por completo Raptor en un plazo de 6 meses
Aún no hay comentarios.