Estado del Machine Learning Competitivo 2022

xguru · 2023-03-22T11:05:02+09:00

Highlights Las herramientas convergen en Python, PyData, PyTorch y Gradient-boosted Decision Tree (GBDT) El deep learning todavía no logra reemplazar a GBDT en datos tabulares Los transformers lideran el NLP y empiezan a competir con las redes neuronales convolucionales (CNN) en visión por computadora Las competencias abarcan diversas áreas de investigación, incluyendo visión por computadora, NLP, datos tabulares, robótica y análisis de series temporales A veces ganan soluciones de un solo modelo, pero por lo general ganan los ensembles a gran escala Existen varias plataformas de competencias de machine learning, y también decenas de sitios creados para competencias específicas El machine learning competitivo sigue ganando popularidad, incluso en el ámbito académico El 50% de los ganadores son competidores en solitario y el 50% de los ganadores obtienen su primera victoria. El 30% ya había ganado dos o más veces Algunos competidores pueden invertir considerablemente en hardware para entrenar sus soluciones, pero quienes usan hardware gratuito como Google Colab todavía pueden ganar Competitive ML Landscape Competencias y tendencias destacadas En monto, Snowcast Showdown de DrivenData (patrocinado por el Departamento de Desarrollo Territorial de EE. UU.). Premio de $500k La más popular fue American Express Default Prediction de Kaggle. Participaron más de 4000 equipos. Premio de $100k. El primer lugar fue para un debutante en solitario (red neuronal + LightGBM) La competencia independiente más grande fue AI Audit Challenge de Stanford El área más grande fue visión por computadora: medioambiente, medicina La segunda área más grande fue NLP: NLP + búsqueda, NLP + Reinforcement Learning El área de Sequential Decision-Making también está creciendo Plataformas Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,.. Otras plataformas interesantes: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,.. Purpose Las competencias bien organizadas ofrecen problemas interesantes que dan ganas de resolver junto con datos de entrenamiento reúnen un grupo de participantes potenciales con gran capacidad cuentan con mecanismos que penalizan a los participantes que hacen overfitting ofrecen incentivos (financieros) suficientes para que los participantes dediquen un esfuerzo real a resolver el problema realizan una revisión pública de la solución ganadora (después de que termina la competencia) Winning Solutions Toolkit ganador: Python, en segundo lugar C++ Paquetes de Python más usados PyData: Numpy, Pandas, SciPy, Scikit Learn Deep Learning: PyTorch GBDT: LightGBM, XGBoost, CatBoost Hyperparameter Optimisation: Optuna Experiment Tracking: W&B Visualización: matplotlib, seaborn Toolkit de NLP: Transformers Toolkit de visión por computadora: Albumentations, OpenCV, pillow, scikit-image, timm

(mlcontests.com)

21 puntos por xguru 2023-03-22 | Aún no hay comentarios. | Compartir por WhatsApp

Highlights

Las herramientas convergen en Python, PyData, PyTorch y Gradient-boosted Decision Tree (GBDT)
El deep learning todavía no logra reemplazar a GBDT en datos tabulares
Los transformers lideran el NLP y empiezan a competir con las redes neuronales convolucionales (CNN) en visión por computadora
Las competencias abarcan diversas áreas de investigación, incluyendo visión por computadora, NLP, datos tabulares, robótica y análisis de series temporales
A veces ganan soluciones de un solo modelo, pero por lo general ganan los ensembles a gran escala
Existen varias plataformas de competencias de machine learning, y también decenas de sitios creados para competencias específicas
El machine learning competitivo sigue ganando popularidad, incluso en el ámbito académico
El 50% de los ganadores son competidores en solitario y el 50% de los ganadores obtienen su primera victoria. El 30% ya había ganado dos o más veces
Algunos competidores pueden invertir considerablemente en hardware para entrenar sus soluciones, pero quienes usan hardware gratuito como Google Colab todavía pueden ganar

Competitive ML Landscape

Competencias y tendencias destacadas
- En monto, Snowcast Showdown de DrivenData (patrocinado por el Departamento de Desarrollo Territorial de EE. UU.). Premio de $500k
- La más popular fue American Express Default Prediction de Kaggle. Participaron más de 4000 equipos. Premio de $100k. El primer lugar fue para un debutante en solitario (red neuronal + LightGBM)
- La competencia independiente más grande fue AI Audit Challenge de Stanford
- El área más grande fue visión por computadora: medioambiente, medicina
- La segunda área más grande fue NLP: NLP + búsqueda, NLP + Reinforcement Learning
- El área de Sequential Decision-Making también está creciendo
Plataformas
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- Otras plataformas interesantes: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
Purpose
- Las competencias bien organizadas
  - ofrecen problemas interesantes que dan ganas de resolver junto con datos de entrenamiento
  - reúnen un grupo de participantes potenciales con gran capacidad
  - cuentan con mecanismos que penalizan a los participantes que hacen overfitting
  - ofrecen incentivos (financieros) suficientes para que los participantes dediquen un esfuerzo real a resolver el problema
  - realizan una revisión pública de la solución ganadora (después de que termina la competencia)

Winning Solutions

Toolkit ganador: Python, en segundo lugar C++
Paquetes de Python más usados
- PyData: Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT: LightGBM, XGBoost, CatBoost
- Hyperparameter Optimisation: Optuna
- Experiment Tracking: W&B
- Visualización: matplotlib, seaborn
- Toolkit de NLP: Transformers
- Toolkit de visión por computadora: Albumentations, OpenCV, pillow, scikit-image, timm

Estado del Machine Learning Competitivo 2022

Highlights

Competitive ML Landscape

Winning Solutions

Lecturas relacionadas

Aún no hay comentarios.