Pour booster les algorithmes, je dirais qu'ils ont assez bien évolué. Au début de 1995, AdaBoost a été introduit, puis après un certain temps, c'était Gradient Boosting Machine (GBM). Récemment, vers 2015, XGBoost a été introduit, ce qui est précis, gère le sur-ajustement et est devenu un gagnant de plusieurs compétitions Kaggle. En 2017, LightGBM a été introduit par Microsoft, il offre un temps de formation nettement inférieur à celui de XGBoost. De plus, CatBoost a été introduit par Yandex pour gérer les fonctionnalités catégorielles.
Random Forest a été introduit au début des années 2000, mais y a-t-il eu des dignes successeurs? Je pense que s'il existait un meilleur algorithme d'ensachage que Random Forest (qui peut être facilement appliqué en pratique), il aurait attiré l'attention dans des endroits comme Kaggle. Aussi, pourquoi le boosting est-il devenu la technique d'ensemble la plus populaire, est-ce parce que vous pouvez construire moins d'arbres pour une prédiction optimale?
la source
Réponses:
xgboost, catboost et lightgbm utilisent certaines caractéristiques de la forêt aléatoire (échantillonnage aléatoire des variables / observations), donc je pense qu'ils sont un successeur du boosting et du RF ensemble et tirent le meilleur parti des deux. ;)
la source