21 puntos por xguru 2023-03-22 | Aún no hay comentarios. | Compartir por WhatsApp

Highlights

  • Las herramientas convergen en Python, PyData, PyTorch y Gradient-boosted Decision Tree (GBDT)
  • El deep learning todavía no logra reemplazar a GBDT en datos tabulares
  • Los transformers lideran el NLP y empiezan a competir con las redes neuronales convolucionales (CNN) en visión por computadora
  • Las competencias abarcan diversas áreas de investigación, incluyendo visión por computadora, NLP, datos tabulares, robótica y análisis de series temporales
  • A veces ganan soluciones de un solo modelo, pero por lo general ganan los ensembles a gran escala
  • Existen varias plataformas de competencias de machine learning, y también decenas de sitios creados para competencias específicas
  • El machine learning competitivo sigue ganando popularidad, incluso en el ámbito académico
  • El 50% de los ganadores son competidores en solitario y el 50% de los ganadores obtienen su primera victoria. El 30% ya había ganado dos o más veces
  • Algunos competidores pueden invertir considerablemente en hardware para entrenar sus soluciones, pero quienes usan hardware gratuito como Google Colab todavía pueden ganar

Competitive ML Landscape

  • Competencias y tendencias destacadas
    • En monto, Snowcast Showdown de DrivenData (patrocinado por el Departamento de Desarrollo Territorial de EE. UU.). Premio de $500k
    • La más popular fue American Express Default Prediction de Kaggle. Participaron más de 4000 equipos. Premio de $100k. El primer lugar fue para un debutante en solitario (red neuronal + LightGBM)
    • La competencia independiente más grande fue AI Audit Challenge de Stanford
    • El área más grande fue visión por computadora: medioambiente, medicina
    • La segunda área más grande fue NLP: NLP + búsqueda, NLP + Reinforcement Learning
    • El área de Sequential Decision-Making también está creciendo
  • Plataformas
    • Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
    • Otras plataformas interesantes: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
  • Purpose
    • Las competencias bien organizadas
      • ofrecen problemas interesantes que dan ganas de resolver junto con datos de entrenamiento
      • reúnen un grupo de participantes potenciales con gran capacidad
      • cuentan con mecanismos que penalizan a los participantes que hacen overfitting
      • ofrecen incentivos (financieros) suficientes para que los participantes dediquen un esfuerzo real a resolver el problema
      • realizan una revisión pública de la solución ganadora (después de que termina la competencia)

Winning Solutions

  • Toolkit ganador: Python, en segundo lugar C++
  • Paquetes de Python más usados
    • PyData: Numpy, Pandas, SciPy, Scikit Learn
    • Deep Learning: PyTorch
    • GBDT: LightGBM, XGBoost, CatBoost
    • Hyperparameter Optimisation: Optuna
    • Experiment Tracking: W&B
    • Visualización: matplotlib, seaborn
    • Toolkit de NLP: Transformers
    • Toolkit de visión por computadora: Albumentations, OpenCV, pillow, scikit-image, timm

Aún no hay comentarios.

Aún no hay comentarios.