Les variables hautement corrélées en forêt aléatoire ne vont-elles pas fausser la précision et la sélection des caractéristiques?

32

À mon sens, les variables hautement corrélées ne causeront pas de problèmes de multi-colinéarité dans un modèle de forêt aléatoire (corrigez-moi si je me trompe). Toutefois, si j’ai trop de variables contenant des informations similaires, le modèle pèsera-t-il trop sur cet ensemble plutôt que sur les autres?

Par exemple, il existe deux ensembles d’informations (A, B) avec le même pouvoir prédictif. Variable X1 , X2 , ...X1000 contiennent toutes les informations A et seul Y contient les informations B. Lorsque les variables d'échantillonnage aléatoires poussent, la plupart des arbres poussent sur les informations A et, par conséquent, les informations B ne sont pas complètes. capturé?

Yoki
la source

Réponses:

19

C'est exact, mais par conséquent, dans la plupart des sous-échantillonnages pour lesquels la variable Y était disponible, le fractionnement serait optimal.

Vous pouvez essayer d’augmenter votre consommation pour vous assurer que cela se produit plus souvent.

R2<.7

Vous pouvez essayer l’élagage récursif à importance variable, c’est-à-dire à éliminer, par exemple, 20% avec l’importance variable la plus basse. Essayez par exemple rfcv du paquet randomForest.

Vous pouvez essayer une décomposition / agrégation de vos variables redondantes.

Soren Havelund Welling
la source
3
Dans certaines sources, j’ai considéré multicollinearityqu’il n’avait AUCUN effet sur le modèle de forêt aléatoire. Par exemple, ici , la réponse la plus votée indique qu '"aucune partie du modèle de forêt aléatoire n'est endommagée par des variables hautement colinéaires". Cela at-il une validité?
Hunle
5
Je pense que vous lisez le NON trop littéralement. Les modèles RF gèrent des variables assez bien corrélées / redondantes, oui. Mais cela ne signifie pas que votre modèle bénéficie nécessairement de réserves de variables non liées ou complètement redondantes (par exemple, des recombinaisons linéaires), il ne se bloque pas non plus. Je ne préconise que la sélection de variables modeste, pour s'attendre à une amélioration modeste des performances des modèles validés par des méthodes croisées.
Soren Havelund Welling
24

Vieux fil, mais je ne suis pas d'accord avec une déclaration générale selon laquelle la colinéarité n'est pas un problème avec les modèles de forêt aléatoires. Lorsque le jeu de données comporte deux entités corrélées (ou plus), chacune de ces entités peut être utilisée comme prédicteur du point de vue du modèle, sans préférence concrète de l'une pour l'autre.

Cependant, une fois l’un d’entre eux utilisé, l’importance des autres est considérablement réduite puisqu’en réalité, l’impureté qu’ils peuvent éliminer est déjà éliminée par le premier élément.

En conséquence, leur importance déclarée sera moindre. Ce n'est pas un problème lorsque nous voulons utiliser la sélection de fonctionnalités pour réduire les surajustements, car il est logique de supprimer les fonctionnalités qui sont principalement dupliquées par d'autres fonctionnalités. Toutefois, l' interprétation des données peut conduire à la conclusion erronée qu'une des variables un prédicteur fort alors que les autres membres du même groupe n’ont pas d’importance, alors qu’ils sont en réalité très proches en ce qui concerne leur relation avec la variable de réponse.

L’effet de ce phénomène est quelque peu réduit grâce à la sélection aléatoire d’entités à la création de chaque nœud, mais en général, l’effet n’est pas complètement supprimé.

La plupart ci-dessus cribbed d'ici: Sélection de bonnes fonctionnalités

GDB
la source
3
Cela a été mon article pour aller à la sélection avec fonction RF, comme importance variable est souvent utilisée comme mesure bmcbioinformatics.biomedcentral.com/articles/10.1186/... Depuis deux ans , je suis devenu plus sceptique de la sélection de fonction selection.Feature donne trop optimistes croix -validation si non effectué dans une boucle de validation croisée externe appropriée. Si cela est fait correctement, je ne vois souvent que peu ou pas d'optimisation des performances de prévision. Maintenant, j'utilise principalement la sélection des fonctionnalités pour simplifier les machines de prévision en production ou pour rendre un modèle final plus transparent.
Soren Havelund Welling
@SorenHavelundWelling - Vous dites que "La sélection de fonctionnalités génère une validation croisée suroptimiste si elle n'est pas effectuée dans une boucle de validation croisée externe appropriée". Pouvez-vous expliquer cela ou faire référence à une source expliquant cela? Cela va à l'encontre de tout ce que j'ai lu jusqu'à présent ...
Jack Fleeting