J'ai lu dans quelques sources, y compris celle-ci , que les forêts aléatoires ne sont pas sensibles aux valeurs aberrantes (par exemple, la régression logistique et les autres méthodes ML).
Cependant, deux morceaux d'intuition me disent le contraire:
Chaque fois qu'un arbre de décision est construit, tous les points doivent être classés. Cela signifie que même les valeurs aberrantes seront classées et affecteront donc les arbres de décision où elles ont été sélectionnées lors de la relance.
L’amorçage fait partie de la façon dont RandomForest effectue un sous-échantillonnage. Bootstrapping est sensible aux valeurs aberrantes.
Existe-t-il un moyen de concilier mon intuition quant à sa sensibilité aux valeurs aberrantes, avec des sources en désaccord?
min_samples_leaf_node
est1
, alors il pourrait être sujet à des valeurs aberrantes.Réponses:
Votre intuition est correcte. Cette réponse ne fait que l'illustrer sur un exemple.
Il est en effet une idée fausse commune que CART / RF est en quelque sorte robuste aux aberrants.
Pour illustrer le manque de robustesse de la RF face à la présence d'une seule valeur aberrante, nous pouvons (légèrement) modifier le code utilisé dans la réponse de Soren Havelund Welling ci-dessus pour montrer qu'une seule "valeur aberrante" suffit à influencer complètement le modèle RF adapté. Par exemple, si nous calculons l’erreur de prédiction moyenne des observations non contaminées en fonction de la distance entre la valeur aberrante et le reste des données, nous pouvons voir (image ci-dessous) que l’introduction d’ une seule valeur aberrante (en remplaçant l’une des observations originales). par une valeur arbitraire sur l'espace 'y') suffit pour éloigner arbitrairement les prévisions du modèle RF des valeurs qu'elles auraient obtenues si elles avaient été calculées sur les données d'origine (non contaminées):
À quelle distance? Dans l'exemple ci-dessus, la seule valeur aberrante a tellement changé l'ajustement que l'erreur de prédiction moyenne (sur les observations non contaminées) est maintenant supérieure de 1 à 2 ordres de grandeur à ce qu'elle aurait été si le modèle avait été ajusté sur les données non contaminées.
Il n’est donc pas vrai qu’une seule valeur aberrante ne puisse affecter l’ajustement RF.
En outre, comme je l'ai indiqué ailleurs , il est beaucoup plus difficile de gérer les valeurs aberrantes lorsqu'elles sont potentiellement multiples (bien qu'elles n'aient pas besoin de représenter une grande partie des données pour que leurs effets apparaissent). Bien entendu, les données contaminées peuvent contenir plus d’une valeur aberrante; pour mesurer l'impact de plusieurs valeurs aberrantes sur l'ajustement RF, comparez la courbe de gauche obtenue à partir de la RF sur les données non contaminées à la courbe de droite obtenue en décalant arbitrairement 5% des valeurs de réponses (le code est sous la réponse) .
Enfin, dans le contexte de la régression, il est important de souligner que les valeurs aberrantes peuvent se distinguer de la majeure partie des données dans les espaces de conception et de réponse (1). Dans le contexte spécifique de RF, les valeurs aberrantes de conception affecteront l'estimation des hyper-paramètres. Cependant, ce deuxième effet est plus manifeste lorsque le nombre de dimensions est grand.
Ce que nous observons ici est un cas particulier de résultat plus général. La sensibilité extrême aux valeurs aberrantes des méthodes d’ajustement de données multivariées basées sur des fonctions de perte convexe a été redécouverte à plusieurs reprises. Voir (2) pour une illustration dans le contexte spécifique des méthodes ML.
Modifier.
où et sont des nœuds enfants émergents qui dépendent du choix de ( et sont des fonctions implicites de ) et désigne la fraction de données qui tombe vers le nœud enfant de gauche et est le partage de données dans . Ensuite, on peut conférer aux arbres de régression (et donc aux RF) une robustesse d'espace "y" en remplaçant la fonction de variance utilisée dans la définition d'origine par une alternative robuste. C'est essentiellement l'approche utilisée dans (4) où la variance est remplacée par un robuste estimateur M d'échelle.t R s ∗ t L t R s p L t L p R = 1 - p L t RtL tR s* tL tR s pL tL pR=1−pL tR
la source
p
ets
dans la formule?valeur aberrante 1a: cette valeur aberrante a une ou plusieurs valeurs de caractéristique extrêmes et est placée à distance de tout autre échantillon. La valeur aberrante va influencer les divisions initiales des arbres comme n'importe quel autre échantillon, donc aucune influence forte. Il aura une faible proximité avec tout autre échantillon et définira uniquement la structure du modèle dans une partie distante de l'espace de fonctions. Au cours de la prédiction, la plupart des nouveaux échantillons ne ressembleront probablement pas à cette valeur aberrante et aboutiront rarement au même nœud terminal. De plus, les arbres de décision considèrent les entités comme si elles étaient ordinales (classement). La valeur est inférieure / égale ou supérieure au point de rupture, ainsi, peu importe si une valeur de caractéristique est une valeur extrême extrême.
Valeur aberrante 1b: Pour la classification, un seul échantillon peut être considéré comme une valeur aberrante lorsqu'il est intégré au milieu de nombreux échantillons d'une classe différente. J'ai décrit précédemment comment un modèle RF par défaut sera influencé par cet exemple de classe impaire, mais très proche de l'échantillon.
valeur aberrante 2: cette valeur aberrante a une valeur cible extrême peut-être plusieurs fois supérieure à toutes les autres valeurs, mais les valeurs de caractéristique sont normales. Une fraction de .631 des arbres aura un nœud terminal avec cet échantillon. La structure du modèle sera affectée localement près de la valeur aberrante. Remarquez que la structure du modèle est affectée principalement parallèlement à l'axe de la fonction, car les nœuds sont divisés de manière variable.
J'ai inclus une simulation de régression RF de outlier_2. 1999 points tirés d’une structure arrondie lisse et d’une valeur aberrante avec une valeur cible beaucoup plus élevée (y = 2, = 0, = 0). L'ensemble d'entraînement est montré à gauche. Le modèle de structure RF appris est affiché à droite. x1x2y=(x41+x42)12 x1 x2
EDIT: commentaire à l'utilisateur603
Oui pour les valeurs extrêmes extrêmes sur l'échelle cible, il convient d'envisager de transformer l'échelle cible avant d'exécuter RF. J'ai ajouté ci-dessous une fonction robustModel () qui modifie randomForest. Une autre solution serait d’enregistrer la transformation avant la formation.
la source
y[1]=200
vous constaterez que l'erreur de prédiction sur les observations non contaminées est multipliée par 20!Ce n'est pas l'algorithme Random Forest lui-même qui résiste aux valeurs aberrantes, mais l'apprenant de base sur lequel il repose: l' arbre de décision . Les arbres de décision isolent les observations atypiques en petites feuilles (c.-à-d. De petits sous-espaces de l'espace d'origine). De plus, les arbres de décision sont des modèles locaux . Contrairement à la régression linéaire, où la même équation est valable pour tout l'espace, un modèle très simple est ajusté localement à chaque sous-espace (c'est-à-dire à chaque feuille).
Par conséquent, pour la régression par exemple, les valeurs extrêmes n'affectent pas l'ensemble du modèle car elles sont moyennées localement. Ainsi, l'ajustement aux autres valeurs n'est pas affecté.
En fait, cette propriété souhaitable se répercute sur d'autres structures en forme d'arborescence, telles que les dendogrammes. La classification hiérarchique, par exemple, est utilisée depuis longtemps pour le nettoyage des données car elle isole automatiquement les observations aberrantes en petites grappes. Voir par exemple Loureiro et al. (2004). Détection de valeurs aberrantes à l'aide de méthodes de clustering: une application de nettoyage de données .
En résumé, RF hérite de son insensibilité aux valeurs aberrantes résultant du partitionnement récursif et de l'ajustement des modèles locaux .
Notez que les arbres de décision sont des modèles à faible biais mais à variance élevée: leur structure est susceptible de changer après une légère modification de l'ensemble d'apprentissage (suppression ou ajout de quelques observations). Mais cela ne doit pas être confondu avec une sensibilité aux valeurs aberrantes, c'est une question différente.
la source
labeled
ou desunlabeled
données? Et comment ce regroupement pourrait-il être réalisé sur des données hétérogènes contenant à la fois des caractéristiques catégoriques et numériques?