Hyperspace - subsistema de indexación de código abierto para Apache Spark presentado por Microsoft
(microsoft.github.io)Un subsistema que permite acelerar consultas basadas en índices en Apache Spark
→ Crea y administra índices sobre datos CSV, JSON y Parquet
→ Usa estos índices automáticamente para acelerar consultas/cargas de trabajo sin cambios en el código
- En benchmarks TPC, la velocidad de consultas individuales aumentó hasta 11 veces
→ En general, acelera el rendimiento de consultas aproximadamente 2 veces en hardware convencional
-
API simples como
create,refresh,delete,restore,vacuum,cancel -
Compatible con Scala, Python y .NET
Se está utilizando en Azure Synapse Analytics de Microsoft Azure Cloud
( un servicio de análisis ilimitado que combina almacenamiento de datos empresarial y análisis de big data )
1 comentarios
Texto de presentación: Hyperspace, un subsistema de indexación para Apache Spark™, ahora es de código abierto
https://cloudblogs.microsoft.com/opensource/2020/…