Je traite de données linéaires avec des valeurs aberrantes, dont certaines sont à plus de 5 écarts-types de la droite de régression estimée. Je cherche une technique de régression linéaire qui réduit l’influence de ces points.
Jusqu'ici, ce que j'ai fait est d'estimer la droite de régression avec toutes les données, puis ignorer le point de données avec de très grands résidus carrés (disons les 10% supérieurs) et répéter la régression sans ces points.
Dans la littérature, il existe de nombreuses approches possibles: carrés les moins équilibrés, régression quantile, m-estimateurs, etc. Je ne sais vraiment pas quelle approche je devrais essayer. Je recherche donc des suggestions. Pour moi, l'important est que la méthode choisie soit rapide car la régression robuste sera calculée à chaque étape d'une routine d'optimisation. Merci beaucoup!
la source
Réponses:
Si vos données contiennent une seule valeur aberrante, vous pouvez la trouver de manière fiable en utilisant l'approche que vous suggérez (sans les itérations). Une approche formelle à cela est
Pour trouver plus d'une valeur aberrante, pendant de nombreuses années, la méthode principale était la famille de la méthode dite d' estimation Il s'agit d'une famille d'estimateurs assez large comprenant l' estimateur M de Huber de régression, la régression L1 de Koenker ainsi que l'approche proposée par Procastinator dans son commentaire à votre question. Les M estimateurs à fonctions convexes ρ ont l’avantage d’avoir à peu près la même complexité numérique qu’une estimation par régression normale. Le gros inconvénient est qu’ils ne peuvent trouver les valeurs aberrantes que si:M M M ρ
Vous pouvez trouver une bonne implémentation des estimations de régression ( l 1 ) dans le package ( ) .M l1
robustbase
quantreg
R
Si vos données contient plus de valeurs p + 1 lieraberrantes sesituantéventuellement aussi dans l'espace de conception, leur résolution revient donc à résoudre un problème combinatoire (de manière équivalente la solution à unestimateurMavec unefonctionρré-décroissante / non convexe).⌊ np + 1⌋ M ρ
Au cours des 20 dernières années (et en particulier des 10 dernières), de nombreux algorithmes de détection de valeurs aberrantes rapides et fiables ont été conçus pour résoudre ce problème combinatoire de manière approximative. Celles-ci sont maintenant largement implémentées dans les progiciels statistiques les plus populaires (R, Matlab, SAS, STATA, ...).
Néanmoins, la complexité numérique de la recherche de valeurs aberrantes avec ces approches est typiquement d'ordre . La plupart des algorithmes peuvent être utilisés dans la pratique pour les valeurs de p dans la mi-adolescence. En règle générale, ces algorithmes sont linéaires dans n (le nombre d'observations). Le nombre d'observations n'est donc pas un problème. Un gros avantage est que la plupart de ces algorithmes sont embarrassants en parallèle. Plus récemment, de nombreuses approches spécialement conçues pour les données de plus grande dimension ont été proposées.O ( 2p) p n
Étant donné que vous n'avez pas spécifié dans votre question, je vais énumérer quelques références pour le cas p < 20 . Voici quelques articles qui expliquent cela plus en détail dans cette série d'articles de synthèse:p p < 20
Un ouvrage de référence récent sur le problème de l'identification des valeurs aberrantes est le suivant:
Ces méthodes (et de nombreuses autres variantes de celles-ci) sont implémentées (entre autres) dans le package.
robustbase
R
la source
Pour la régression simple (simple x), il y a quelque chose à dire sur la ligne Theil-Sen en termes de robustesse vis-à-vis des points extrêmes y et des points d'influence, ainsi que d'une efficacité généralement bonne (à la normale) par rapport à LS pour la pente. Le point de rupture de la pente est proche de 30%; tant que l'interception (il y a une variété d'interceptions possibles utilisées par les personnes) ne présente pas une panne plus basse, l'ensemble de la procédure gère assez bien une fraction non négligeable de contamination.
Edit: user603 a demandé un avantage de la régression de Theil par rapport à la régression de L1. La réponse est l'autre chose que j'ai mentionnée - des points d'influence:
rq
quantreg
la source
Avez-vous regardé RANSAC (Wikipedia) ?
Cela devrait permettre de calculer un modèle linéaire raisonnable, même s'il y a beaucoup de valeurs aberrantes et de bruit, car il repose sur l'hypothèse que seule une partie des données appartiendra réellement au mécanisme.
la source
Plus d'informations peuvent être trouvées ici: http://statweb.stanford.edu/~candes/papers/GrossErrorsSmallErrors.pdf
la source