11 puntos por xguru 2025-12-30 | Aún no hay comentarios. | Compartir por WhatsApp
  • Formato de archivo columnar de código abierto diseñado con el hardware más reciente (SIMD·GPU) como base
  • Apunta a acceso a datos de alto rendimiento y baja latencia en cargas de trabajo de análisis e IA
  • Logra una tasa de compresión aproximadamente 40% mayor que Parquet y una velocidad de decodificación hasta 40 veces más rápida
  • Introduce un diseño basado en lanes que minimiza las dependencias de datos y permite decodificar cada unidad de forma independiente
    • Asegura paralelismo de datos extremo en SIMD, CPU multinúcleo y GPU
  • Diseñado para que la vectorización automática funcione bien incluso sin código SIMD explícito
    • Adopta un enfoque de acceso en lotes pequeños considerando las características de caché de CPU y GPU
  • Soporta descompresión parcial (partial decompression) para procesar sin descomprimir por completo, lo que permite a los motores de datos ejecutar consultas directamente sobre datos comprimidos
  • Aprovecha las correlaciones entre columnas mediante compresión multicolumna (Multi-Column Compression, MCC)
    • Ofrece un mecanismo de codificación basado en expresiones que complementa la limitación de una sola columna de los formatos columnar tradicionales
  • Arquitectura zero-dependency que no depende de bibliotecas externas, simplificando la compilación
    • Ofrece bindings para lenguajes principales como C++, Python y Rust
  • Incluye una API integrada de conversión CSV ↔ FastLanes
    • Conversión sencilla con read_csv() / to_fls()
    • También permite la conversión inversa con read_fls() / to_csv()
  • En desarrollo con el objetivo de integrarse con stacks de datos de próxima generación como decodificación en GPU y compatibilidad con Apache Arrow y DuckDB

Aún no hay comentarios.

Aún no hay comentarios.