J'effectue plusieurs analyses de régression et je ne sais pas si les valeurs aberrantes de mes données doivent être supprimées. Les données qui m'inquiètent apparaissent sous forme de «cercles» sur les boîtes à moustaches SPSS, mais il n'y a pas d'astérisques (ce qui me fait penser qu'elles ne sont pas «si mauvaises»). Les cas qui m'inquiètent apparaissent sous le tableau "diagnostics casewise" dans la sortie - dois-je donc supprimer ces cas?
regression
outliers
Anon
la source
la source
Réponses:
Le repérage des valeurs aberrantes n'est pas un appel au jugement (ou en tout cas pas nécessairement un). Étant donné un modèle statistique, les valeurs aberrantes ont une définition précise et objective: ce sont des observations qui ne suivent pas le modèle de la majorité des données. Ces observations doivent être mises de côté au début de toute analyse simplement parce que leur distance par rapport à la majeure partie des données garantit qu'elles exerceront une influence disproportionnée sur tout modèle multivariable ajusté par maximum de vraisemblance (ou même sur toute autre fonction de perte convexe).
Il est important de souligner que des valeurs aberrantes multivariable s peuvent tout simplement pas être détectée de manière fiable en utilisant des résidus à partir d' un moindres carrés (ou tout autre modèle estimé par ML, ou toute autre fonction convexe de perte). En termes simples, les valeurs aberrantes multivariées ne peuvent être détectées de manière fiable qu'en utilisant leurs résidus à partir d'un modèle ajusté en utilisant une procédure d'estimation non susceptible d'être influencée par eux.
La croyance que les valeurs aberrantes se démarqueront nécessairement dans les résidus d'un ajustement classique se situe quelque part là-haut avec d'autres non-statistiques difficiles à démystifier tels que l'interprétation des valeurs de p comme mesure de la preuve ou l'inférence sur une population à partir d'un échantillon biaisé. Sauf peut-être que celui-ci pourrait bien être beaucoup plus ancien: Gauss lui-même a recommandé l'utilisation d'un estimateur robuste tel que la médiane et le fou (au lieu de la moyenne classique et des écarts-types) pour estimer les paramètres d'une distribution normale à partir d'observations bruyantes (même en allant jusqu'à dériver le facteur de cohérence du fou (1)).
Pour donner un exemple visuel simple basé sur des données réelles, considérons les fameuses données des étoiles CYG . Ici, la ligne rouge représente l'ajustement le moins carré, la ligne bleue l'ajustement obtenu en utilisant un ajustement de régression linéaire robuste. L'ajustement robuste est ici l'ajustement FastLTS (2), une alternative à l'ajustement LS qui peut être utilisé pour détecter les valeurs aberrantes (car il utilise une procédure d'estimation qui garantit que l'influence de toute observation sur le coefficient estimé est limitée). Le code R pour le reproduire est:
Fait intéressant, les 4 observations périphériques sur la gauche n'ont même pas les plus grands résidus par rapport à l'ajustement LS et le tracé QQ des résidus de l'ajustement LS (ou l'un des outils de diagnostic qui en découlent tels que la distance de Cook ou le dfbeta) ne parvient pas à montrer l'un d'eux comme problématique. Il s'agit en fait de la norme: il ne faut pas plus de deux valeurs aberrantes (quelle que soit la taille de l'échantillon) pour tirer les estimations LS de telle sorte que les valeurs aberrantes ne se démarquent pas dans un graphique résiduel. C'est ce qu'on appelle l' effet de masquageet c'est bien documenté. Peut-être la seule chose remarquable à propos de l'ensemble de données CYGstars est qu'il est bivarié (nous pouvons donc utiliser l'inspection visuelle pour confirmer le résultat de l'ajustement robuste) et qu'il existe en fait une bonne explication pour expliquer pourquoi ces quatre observations à gauche sont si anormales.
C'est, en fait, l'exception plus que la règle: sauf dans les petites études pilotes impliquant de petits échantillons et peu de variables et où la personne effectuant l'analyse statistique était également impliquée dans le processus de collecte de données, je n'ai jamais connu de cas où des croyances antérieures concernant l'identité des valeurs aberrantes était en fait vraie. C'est d'ailleurs très facile à vérifier. Que les valeurs aberrantes aient été identifiées à l'aide d'un algorithme de détection de valeurs aberrantes ou du sentiment intestinal du chercheur, les valeurs aberrantes sont par définition des observations qui ont un effet de levier anormal (ou `` pull '') sur les coefficients obtenus à partir d'un ajustement LS. En d'autres termes, les valeurs aberrantes sont des observations dont le retrait de l'échantillon devrait gravement affecter l'ajustement LS.
Bien que je n'ai jamais personnellement vécu cela non plus, il existe des cas bien documentés dans la littérature où des observations signalées comme des valeurs aberrantes par un algorithme de détection des valeurs aberrantes se sont révélées être des erreurs grossières ou générées par un processus différent. Dans tous les cas, il n'est ni scientifiquement justifié ni judicieux de ne supprimer les valeurs aberrantes que si elles peuvent être comprises ou expliquées d'une manière ou d'une autre. Si une petite cabale d'observations est si éloignée du corps principal des données qu'elle peut à elle seule tirer les résultats d'une procédure statistique, il est sage (et je pourrais ajouter naturel) de la traiter séparément, que ces points de données ne sont pas également suspects pour d'autres motifs.
(1): voir Stephen M. Stigler, The History of Statistics: The Measurement of Uncertainty before 1900.
(2): Computing LTS Regression for Large Data Sets (2006) PJ Rousseeuw, K. van Driessen.
(3): Méthodes multivariées robustes à répartition élevée (2008). Hubert M., Rousseeuw PJ et Van Aelst S. Source: Statist. Sci. Volume 23, 92-119.
la source
En général, je me méfie de supprimer les «valeurs aberrantes». L'analyse de régression peut être correctement appliquée en présence d'erreurs non distribuées normalement, d'erreurs qui présentent une hétéroscédasticité ou de valeurs des prédicteurs / variables indépendantes qui sont "loin" du reste. Le vrai problème avec les valeurs aberrantes est qu'elles ne suivent pas le modèle linéaire que tous les autres points de données suivent. Comment savez-vous si c'est le cas? Non.
Si quoi que ce soit, vous ne voulez pas rechercher des valeurs de vos variables qui sont aberrantes; au lieu de cela, vous souhaitez rechercher les valeurs de vos résidus qui sont aberrantes. Regardez ces points de données. Leurs variables sont-elles enregistrées correctement? Y a-t-il une raison pour laquelle ils ne suivraient pas le même modèle que le reste de vos données?
Bien sûr, la raison pour laquelle ces observations peuvent apparaître comme des valeurs aberrantes (selon le diagnostic résiduel) pourrait être parce que votre modèle est incorrect. J'ai un professeur qui aimait à dire que si nous jetions les valeurs aberrantes, nous croirions toujours que les planètes tournent autour du soleil en cercles parfaits. Kepler aurait pu jeter Mars et l'histoire de l'orbite circulaire aurait été plutôt bonne. Mars a fourni l'idée clé que ce modèle était incorrect et il aurait manqué ce résultat s'il avait ignoré cette planète.
Vous avez mentionné que la suppression des valeurs aberrantes ne change pas beaucoup vos résultats. Soit parce que vous ne disposez que d'un très petit nombre d'observations que vous avez supprimées par rapport à votre échantillon, soit qu'elles sont raisonnablement cohérentes avec votre modèle. Cela pourrait suggérer que, même si les variables elles-mêmes peuvent sembler différentes des autres, leurs résidus ne sont pas exceptionnels. Je les laisserais à l'intérieur et n'essaierais pas de justifier ma décision de retirer certains points à mes critiques.
la source
+1 à @Charlie et @PeterFlom; vous obtenez de bonnes informations là-bas. Je peux peut-être apporter une petite contribution ici en remettant en question la prémisse de la question. Un boxplot désignera généralement (le logiciel peut varier, et je ne sais pas exactement ce que fait SPSS) les points plus de 1,5 fois la plage inter-quartile au-dessus (en dessous) du troisième (premier) quartile comme étant des valeurs aberrantes. Cependant, nous pouvons nous demander à quelle fréquence devons-nous nous attendre à trouver au moins un de ces points lorsque nous savons avec certitude que tous les points proviennent de la même distribution? Une simulation simple peut nous aider à répondre à cette question:
Cela démontre que de tels points peuvent survenir fréquemment (> 50% du temps) avec des échantillons de taille 100, même lorsque rien ne va mal. Comme l'indique cette dernière phrase, la probabilité de trouver une fausse `` valeur aberrante '' via la stratégie boxplot dépendra de la taille de l'échantillon:
Il existe d'autres stratégies pour identifier automatiquement les valeurs aberrantes, mais une telle méthode identifiera parfois à tort les points valides comme des «valeurs aberrantes», et parfois mal identifier les vraies valeurs aberrantes comme des «points valides». (Vous pouvez les considérer comme des erreurs de type I et de type II .) Ma réflexion sur ce problème (pour ce qu'il vaut) est de se concentrer sur les effets de l'inclusion / exclusion des points en question. Si votre objectif est la prédiction, vous pouvez utiliser la validation croisée pour déterminer si / dans quelle mesure, y compris les points en question, augmente l' erreur quadratique moyenne de prédiction . Si votre objectif est l'explication, vous pouvez regarder dfBeta(c.-à-d. regardez dans quelle mesure les estimations bêta de votre modèle changent selon que les points en question sont inclus ou non). Une autre perspective (sans doute la meilleure) consiste à éviter d'avoir à choisir si les points aberrants doivent être supprimés et à utiliser à la place des analyses robustes .
la source
Vous devriez d'abord regarder les graphiques des résidus: suivent-ils (grossièrement) une distribution normale? Montrent-ils des signes d'hétéroskédasticité? Regardez également d'autres graphiques (je n'utilise pas SPSS, donc je ne peux pas dire exactement comment faire cela dans ce programme, ni quels boxplots vous regardez; cependant, il est difficile d'imaginer que les astérisques signifient "pas si mal" qu'ils signifient probablement que ce sont des points très inhabituels selon certains critères).
Ensuite, si vous avez des valeurs aberrantes, regardez-les et essayez de comprendre pourquoi.
Ensuite, vous pouvez essayer la régression avec et sans les valeurs aberrantes. Si les résultats sont similaires, la vie est belle. Rapportez les résultats complets avec une note de bas de page. S'ils ne sont pas similaires, vous devez expliquer les deux régressions.
la source