pourquoi la méthode de boosting est sensible aux valeurs aberrantes

12

J'ai trouvé de nombreux articles qui indiquent que les méthodes de boosting sont sensibles aux valeurs aberrantes, mais aucun article expliquant pourquoi.

D'après mon expérience, les valeurs aberrantes sont mauvaises pour tout algorithme d'apprentissage automatique, mais pourquoi les méthodes de renforcement sont-elles particulièrement sensibles?

Comment les algorithmes suivants se classeraient-ils en termes de sensibilité aux valeurs aberrantes: arbre de stimulation, forêt aléatoire, réseau de neurones, SVM et méthodes de régression simples telles que la régression logistique?

lserlohn
la source
1
J'ai édité pour essayer de clarifier (aussi si vous mettez des espaces au début d'une ligne, stackexchange la traitera comme du code). Pour votre deuxième para, le boost est quoi? Vous devrez peut-être définir la sensibilité.
Jeremy Miles
1
De plus, les valeurs aberrantes et les bruits ne sont pas la même chose.
Jeremy Miles
Je ne marquerais pas encore cette question comme résolue. Il n'est pas clair si le boosting souffre réellement de valeurs aberrantes plus que d'autres méthodes ou non. Il semble que la réponse acceptée ait été acceptée principalement en raison d'un biais de confirmation.
rinspy
Pouvez-vous partager certains de ces articles, s'il vous plaît?
acnalb

Réponses:

11

Les valeurs aberrantes peuvent être néfastes pour le renforcement, car le renforcement construit chaque arbre sur les résidus / erreurs des arbres précédents. Les valeurs aberrantes auront des résidus beaucoup plus importants que les non-valeurs aberrantes, donc le renforcement du gradient concentrera une quantité disproportionnée de son attention sur ces points.

Ryan Zotti
la source
2
Ce sera mieux si vous pouvez donner plus de détails mathématiques à l'OP!
Metariat
5
@Matemattica Je ne suis pas d'accord que l'ajout de détails mathématiques fournira une clarté supplémentaire ici. Ce ne serait qu'un symbole pour les gradients d'arbre, et un taux d'apprentissage des arbres suivants.
Ryan Zotti
1
@RyanZotti: Je suis d'accord avec Metariat. Une notation plus formelle résoudrait une certaine confusion. Par exemple, dans la phrase «Les valeurs aberrantes auront des résidus beaucoup plus importants que les non-valeurs aberrantes», vous voulez dire les résidus par rapport à quoi? Le modèle estimé ou le vrai? Si le premier, ce n'est pas vrai en général et si le second, il est hors de propos.
user603
1

Les algorithmes que vous avez spécifiés sont pour la classification, donc je suppose que vous ne voulez pas dire des valeurs aberrantes dans la variable cible, mais des valeurs aberrantes de la variable d'entrée. Les méthodes Boosted Tree devraient être assez robustes aux valeurs aberrantes dans les entités en entrée, car les apprenants de base sont des divisions d'arbre. Par exemple, si la division est x > 3alors de 5 et 5 000 000 sont traités de la même manière. Cela peut être une bonne chose ou non, mais c'est une question différente.

Si, à la place, vous parliez de régression et de valeurs aberrantes dans la variable cible, la sensibilité des méthodes d'arborescence boostée dépendrait de la fonction de coût utilisée. Bien sûr, l'erreur quadratique est sensible aux valeurs aberrantes car la différence est quadratique et cela influencera fortement l'arbre suivant, car le boosting tente d'ajuster le (gradient de la) perte. Cependant, il existe des fonctions d'erreur plus robustes qui peuvent être utilisées pour les méthodes d'arborescence boostées comme la perte de Huber et la perte absolue.

ZakJ
la source
0

En boostant, nous essayons de choisir l'ensemble de données sur lequel les résultats de l'algorithme étaient médiocres au lieu de choisir au hasard le sous-ensemble de données. Ces exemples durs sont importants à apprendre, donc si l'ensemble de données a beaucoup de valeurs aberrantes et que l'algorithme ne fonctionne pas bien sur ceux-ci, apprendre ces algorithmes durs essaiera de choisir des sous-ensembles avec ces exemples.

saleed waleed
la source