Supposons que nous ayons un problème de classification binaire avec des fonctionnalités principalement catégorielles. Nous utilisons un modèle non linéaire (par exemple XGBoost ou Random Forests) pour l'apprendre.
- Faut-il encore se préoccuper de la multi-colinéarité? Pourquoi?
- Si la réponse à ce qui précède est vraie, comment la combattre si l'on utilise ces types de modèles non linéaires?
Tard dans la soirée, mais voici ma réponse quand même, et c'est "Oui", il faut toujours se soucier de la colinéarité, que le modèle / méthode soit linéaire ou non, ou que la tâche principale soit la prédiction ou la classification.
Supposons un certain nombre de covariables / caractéristiques linéairement corrélées présentes dans l'ensemble de données et la forêt aléatoire comme méthode. De toute évidence, la sélection aléatoire par nœud peut choisir uniquement (ou principalement) des caractéristiques colinéaires qui peuvent / entraîneront une mauvaise répartition, et cela peut se produire à plusieurs reprises, affectant ainsi négativement les performances.
Désormais, les entités colinéaires peuvent être moins informatives du résultat que les autres entités (non colinéaires) et, en tant que telles, elles devraient de toute façon être prises en compte pour être éliminées de l'ensemble des entités. Cependant, supposez que les caractéristiques soient classées en haut de la liste des «caractéristiques importantes» produite par RF. En tant que tels, ils seraient conservés dans l'ensemble de données, augmentant inutilement la dimensionnalité. Donc, dans la pratique, je vérifierais toujours, en tant qu'étape exploratoire (parmi de nombreuses autres), l'association par paire des caractéristiques, y compris la corrélation linéaire.
la source
Si le modèle non linéaire est un modèle arborescent, vous ne devriez pas le considérer comme sérieux. Un modèle d'arbre différent aura une méthode de transaction différente, telle que la forêt aléatoire les gardera tous les deux (car ils construisent l'arbre indépendamment et sélectionnent au hasard la fonctionnalité pour chaque arbre), mais cela n'a aucun effet sur les performances de prédiction, même si vous supprimez le redondant. Mais pour xgboost, il choisira n'importe lequel d'entre eux et l'utilisera jusqu'à la dernière construction de l'arbre.
Il s'agit simplement de la signification de l'interprétation, il est donc suggéré de supprimer la variable hautement corrélée.
la source
La multi-colinéarité est toujours un problème possible. Les variables qui sont des prédicteurs dans le modèle affecteront la prédiction lorsqu'elles sont liées linéairement (c'est-à-dire lorsqu'une colinéarité est présente).
la source