Highlights
- Las herramientas convergen en Python, PyData, PyTorch y Gradient-boosted Decision Tree (GBDT)
- El deep learning todavía no logra reemplazar a GBDT en datos tabulares
- Los transformers lideran el NLP y empiezan a competir con las redes neuronales convolucionales (CNN) en visión por computadora
- Las competencias abarcan diversas áreas de investigación, incluyendo visión por computadora, NLP, datos tabulares, robótica y análisis de series temporales
- A veces ganan soluciones de un solo modelo, pero por lo general ganan los ensembles a gran escala
- Existen varias plataformas de competencias de machine learning, y también decenas de sitios creados para competencias específicas
- El machine learning competitivo sigue ganando popularidad, incluso en el ámbito académico
- El 50% de los ganadores son competidores en solitario y el 50% de los ganadores obtienen su primera victoria. El 30% ya había ganado dos o más veces
- Algunos competidores pueden invertir considerablemente en hardware para entrenar sus soluciones, pero quienes usan hardware gratuito como Google Colab todavía pueden ganar
Competitive ML Landscape
- Competencias y tendencias destacadas
- En monto, Snowcast Showdown de DrivenData (patrocinado por el Departamento de Desarrollo Territorial de EE. UU.). Premio de $500k
- La más popular fue American Express Default Prediction de Kaggle. Participaron más de 4000 equipos. Premio de $100k. El primer lugar fue para un debutante en solitario (red neuronal + LightGBM)
- La competencia independiente más grande fue AI Audit Challenge de Stanford
- El área más grande fue visión por computadora: medioambiente, medicina
- La segunda área más grande fue NLP: NLP + búsqueda, NLP + Reinforcement Learning
- El área de Sequential Decision-Making también está creciendo
- Plataformas
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- Otras plataformas interesantes: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
- Purpose
- Las competencias bien organizadas
- ofrecen problemas interesantes que dan ganas de resolver junto con datos de entrenamiento
- reúnen un grupo de participantes potenciales con gran capacidad
- cuentan con mecanismos que penalizan a los participantes que hacen overfitting
- ofrecen incentivos (financieros) suficientes para que los participantes dediquen un esfuerzo real a resolver el problema
- realizan una revisión pública de la solución ganadora (después de que termina la competencia)
Winning Solutions
- Toolkit ganador: Python, en segundo lugar C++
- Paquetes de Python más usados
- PyData: Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT: LightGBM, XGBoost, CatBoost
- Hyperparameter Optimisation: Optuna
- Experiment Tracking: W&B
- Visualización: matplotlib, seaborn
- Toolkit de NLP: Transformers
- Toolkit de visión por computadora: Albumentations, OpenCV, pillow, scikit-image, timm
Aún no hay comentarios.