À mon sens, les variables hautement corrélées ne causeront pas de problèmes de multi-colinéarité dans un modèle de forêt aléatoire (corrigez-moi si je me trompe). Toutefois, si j’ai trop de variables contenant des informations similaires, le modèle pèsera-t-il trop sur cet ensemble plutôt que sur les autres?
Par exemple, il existe deux ensembles d’informations (A, B) avec le même pouvoir prédictif. Variable , , ... contiennent toutes les informations A et seul Y contient les informations B. Lorsque les variables d'échantillonnage aléatoires poussent, la plupart des arbres poussent sur les informations A et, par conséquent, les informations B ne sont pas complètes. capturé?
multicollinearity
qu’il n’avait AUCUN effet sur le modèle de forêt aléatoire. Par exemple, ici , la réponse la plus votée indique qu '"aucune partie du modèle de forêt aléatoire n'est endommagée par des variables hautement colinéaires". Cela at-il une validité?Vieux fil, mais je ne suis pas d'accord avec une déclaration générale selon laquelle la colinéarité n'est pas un problème avec les modèles de forêt aléatoires. Lorsque le jeu de données comporte deux entités corrélées (ou plus), chacune de ces entités peut être utilisée comme prédicteur du point de vue du modèle, sans préférence concrète de l'une pour l'autre.
Cependant, une fois l’un d’entre eux utilisé, l’importance des autres est considérablement réduite puisqu’en réalité, l’impureté qu’ils peuvent éliminer est déjà éliminée par le premier élément.
En conséquence, leur importance déclarée sera moindre. Ce n'est pas un problème lorsque nous voulons utiliser la sélection de fonctionnalités pour réduire les surajustements, car il est logique de supprimer les fonctionnalités qui sont principalement dupliquées par d'autres fonctionnalités. Toutefois, l' interprétation des données peut conduire à la conclusion erronée qu'une des variables un prédicteur fort alors que les autres membres du même groupe n’ont pas d’importance, alors qu’ils sont en réalité très proches en ce qui concerne leur relation avec la variable de réponse.
L’effet de ce phénomène est quelque peu réduit grâce à la sélection aléatoire d’entités à la création de chaque nœud, mais en général, l’effet n’est pas complètement supprimé.
La plupart ci-dessus cribbed d'ici: Sélection de bonnes fonctionnalités
la source