Tuplex - framework de procesamiento paralelo de big data

xguru · 2021-07-09T09:20:53+09:00

Ofrece una API de Python similar a Apache Spark / Dask, pero → no invoca el intérprete de Python → genera bytecode LLVM optimizado para el pipeline dado y el conjunto de datos de entrada → es entre 5 y 91x más rápido que el intérprete Internamente se basa en compilación guiada por datos y procesamiento de modo dual, logrando una velocidad similar a la de un pipeline optimizado programado en C++ Soporta MacOS / Linux Artículo presentado en SIGMOD '21: "Tuplex: Data Science in Python at Native Code Speed"

(github.com)

11 puntos por xguru 2021-07-09 | Aún no hay comentarios. | Compartir por WhatsApp

Ofrece una API de Python similar a Apache Spark / Dask, pero

→ no invoca el intérprete de Python

→ genera bytecode LLVM optimizado para el pipeline dado y el conjunto de datos de entrada

→ es entre 5 y 91x más rápido que el intérprete

Internamente se basa en compilación guiada por datos y procesamiento de modo dual, logrando una velocidad similar a la de un pipeline optimizado programado en C++
Soporta MacOS / Linux
Artículo presentado en SIGMOD '21: "Tuplex: Data Science in Python at Native Code Speed"

Tuplex - framework de procesamiento paralelo de big data

Lecturas relacionadas

Aún no hay comentarios.