D'après le tutoriel du XGBoost, je pense que lorsque chaque arbre grandit, toutes les variables sont analysées pour être sélectionnées pour fractionner les nœuds, et celle avec la répartition de gain maximale sera choisie. Donc, ma question est que si j'ajoutais des variables de bruit dans l'ensemble de données, ces variables de bruit influenceraient-elles la sélection des variables (pour chaque arbre qui grandit)? Ma logique est que parce que ces variables de bruit ne donnent PAS du tout de gain maximal, elles ne seraient donc jamais sélectionnées et n'influenceraient donc pas la croissance de l'arbre.
Si la réponse est oui, est-il vrai que "plus il y a de variables, mieux c'est pour XGBoost"? Ne considérons pas le temps de formation.
De plus, si la réponse est oui, alors est-il vrai que "nous n'avons pas besoin de filtrer les variables non importantes du modèle".
Je vous remercie!
la source