OQBoost: árbol oblicuo listo para uso en producción
(github.com/CREE1116)OQBoost es una biblioteca de Gradient Boosting Decision Tree (GBDT) basada en 2D Oblique Split.
Las bibliotecas GBDT más representativas hasta ahora, como XGBoost, LightGBM y CatBoost, usan en su mayoría particiones por eje (axis-aligned). Como dividen usando solo una característica, son muy rápidas y eficientes, pero para expresar fronteras de decisión diagonales o la interacción entre dos variables necesitan combinar varios árboles.
Para resolver esta limitación, OQBoost usa como unidad básica de partición un 2D Oblique Split que emplea dos características al mismo tiempo. Está diseñado con el objetivo de ofrecer una capacidad de representación más rica al realizar particiones oblicuas directamente en un nodo, mientras mantiene una velocidad de entrenamiento práctica.
Para ello, OQBoost combina un algoritmo de búsqueda rápida de direcciones basado en Grid Label Accumulation con Hessian-weighted Regression, lo que reduce de forma importante el alto costo computacional de los árboles oblicuos tradicionales. Además, implementa velocidad de entrenamiento a nivel de biblioteca real mediante diversas optimizaciones como Lazy Binning, Fast Search, Cache y Precomputation.
Actualmente, OQBoost ofrece las siguientes funciones.
- Binary Classification
- Multiclass Classification (Joint Training)
- Regression
- Native Missing Value Handling
- Native Categorical Feature Support
- SHAP-style Built-in Explanation
- Kernel SHAP Compatibility
- Multi-thread Training
- Scikit-learn Compatible API
En los resultados experimentales, OQBoost mostró un rendimiento competitivo frente a las bibliotecas GBDT existentes en varios datasets públicos.
- Binary Classification: puesto 1 en ranking promedio de AUC
- Regression: puesto 1 en ranking promedio de R²
- Multiclass Classification: rendimiento en un nivel similar a LightGBM y XGBoost
El objetivo de OQBoost no es simplemente reimplementar los GBDT existentes, sino ofrecer un nuevo motor de Gradient Boosting que permita usar Oblique Split con un costo práctico.
Aún no hay comentarios.