- Formato de archivo columnar de código abierto diseñado con el hardware más reciente (SIMD·GPU) como base
- Apunta a acceso a datos de alto rendimiento y baja latencia en cargas de trabajo de análisis e IA
- Logra una tasa de compresión aproximadamente 40% mayor que Parquet y una velocidad de decodificación hasta 40 veces más rápida
- Introduce un diseño basado en lanes que minimiza las dependencias de datos y permite decodificar cada unidad de forma independiente
- Asegura paralelismo de datos extremo en SIMD, CPU multinúcleo y GPU
- Diseñado para que la vectorización automática funcione bien incluso sin código SIMD explícito
- Adopta un enfoque de acceso en lotes pequeños considerando las características de caché de CPU y GPU
- Soporta descompresión parcial (partial decompression) para procesar sin descomprimir por completo, lo que permite a los motores de datos ejecutar consultas directamente sobre datos comprimidos
- Aprovecha las correlaciones entre columnas mediante compresión multicolumna (Multi-Column Compression, MCC)
- Ofrece un mecanismo de codificación basado en expresiones que complementa la limitación de una sola columna de los formatos columnar tradicionales
- Arquitectura zero-dependency que no depende de bibliotecas externas, simplificando la compilación
- Ofrece bindings para lenguajes principales como C++, Python y Rust
- Incluye una API integrada de conversión CSV ↔ FastLanes
- Conversión sencilla con
read_csv() / to_fls()
- También permite la conversión inversa con
read_fls() / to_csv()
- En desarrollo con el objetivo de integrarse con stacks de datos de próxima generación como decodificación en GPU y compatibilidad con Apache Arrow y DuckDB
Aún no hay comentarios.