Existe-t-il un moyen simple de détecter les valeurs aberrantes?

14

Je me demande s'il existe un moyen simple de détecter les valeurs aberrantes.

Pour l'un de mes projets, qui était essentiellement une corrélation entre le nombre de fois que les répondants participent à une activité physique en une semaine et le nombre de fois qu'ils mangent à l'extérieur de la maison (restauration rapide) en une semaine, j'ai dessiné un nuage de points et j'ai littéralement supprimé le points de données qui étaient extrêmes. (Le nuage de points a montré une corrélation négative.)

Ceci était basé sur le jugement de valeur (basé sur le nuage de points où ces points de données étaient clairement extrêmes). Je n'ai fait aucun test statistique.

Je me demande simplement si c'est une bonne façon de traiter les valeurs aberrantes.

J'ai des données de 350 personnes, donc la perte de (disons) 20 points de données n'est pas un souci pour moi.

Amarald
la source
Voir aussi les réponses à la question similaire définition rigoureuse d'une valeur aberrante
Jonas
3
Stats.stackexchange.com/questions/175 est également très étroitement lié . De nombreuses méthodes de détection des valeurs aberrantes potentielles sont décrites dans les réponses sur stats.stackexchange.com/questions/213 . Mais plus précisément, il y aurait un certain contexte : que faites-vous avec ce nuage de points? Quelles conclusions essayez-vous d'en tirer? Certaines conclusions dépendent peu de ce que vous faites avec les valeurs aberrantes, tandis que d'autres peuvent en dépendre de manière critique. Cela indique que les méthodes que vous utilisez pour identifier et traiter les valeurs aberrantes doivent dépendre de l'analyse prévue.
whuber
Dans les ensembles de données économiques, la pratique standard consiste simplement à dire "Nous windsorize l'ensemble de données à 2,5% et 97,5%", ou alternativement à 1% et 99%. Ensuite, ils suppriment simplement les observations qui sont hors de cette plage de quantiles.
@Harokitty Winsorising semble signifier couper les valeurs plutôt que de les rejeter.
Peter Wood du
Je vous recommande de signaler également le nuage de points non édité, à l'exception de toute erreur d'enregistrement de données. Il est possible qu'il y ait une ou plusieurs populations distinctes supplémentaires. Pour un exemple, voir l'entrée Wikipedia pour le diagramme Hertzsprung – Russell à fr.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
Robert Jones

Réponses:

21

Il n'y a pas de moyen simple de supprimer les valeurs aberrantes. Les valeurs aberrantes peuvent être de deux types:

1) Erreurs de saisie de données. Ce sont souvent les plus faciles à repérer et toujours les plus faciles à gérer. Si vous pouvez trouver les bonnes données, corrigez-les; sinon, supprimez-le.

2) Données légitimes inhabituelles. C'est beaucoup plus délicat. Pour les données bivariées comme la vôtre, la valeur aberrante peut être univariée ou bivariée.

a) Univarié. Tout d'abord, "inhabituel" dépend de la distribution et de la taille de l'échantillon. Vous nous donnez un échantillon de 350 personnes, mais quelle est la distribution? Ce n'est clairement pas normal, car c'est un entier relativement petit. Ce qui est inhabituel sous un Poisson ne le serait pas sous un binôme négatif. Je soupçonne en quelque sorte une relation binomiale négative gonflée à zéro.

Mais même lorsque vous avez la distribution, les valeurs aberrantes (possibles) affecteront les paramètres. Vous pouvez regarder les distributions «laisser un seul», où vous vérifiez si le point de données q serait une valeur aberrante si les données avaient tous les points sauf q. Même alors, cependant, que se passe-t-il s'il y a plusieurs valeurs aberrantes?

b) Bivarié. C'est là que la valeur d'aucune variable n'est inhabituelle en soi, mais ensemble, elles sont étranges. Il y a peut-être un rapport apocryphe selon lequel le recensement a dit qu'il y avait 20 000 veuves de 12 ans aux États-Unis. Les veuves de 12 ans ne sont pas inhabituelles, les veuves non plus, mais les veuves de 12 ans le sont.

Compte tenu de tout cela, il pourrait être plus simple de signaler une mesure robuste de la relation.

Peter Flom - Réintégrer Monica
la source
Merci. Je pense qu'une ellipse de confiance serait peut-être un bon indicateur des valeurs aberrantes car elle montrerait le pourcentage de données qui se situerait dans un certain niveau de confiance (compte tenu de la distribution normale bivariée).
Amarald
Vos données ne peuvent pas être bivariées normales, car elles sont composées d'entiers non négatifs
Peter Flom - Reinstate Monica
18

J'ai fait beaucoup de recherches sur les valeurs aberrantes, en particulier lorsque j'ai travaillé sur la validation des données énergétiques à Oak Ridge de 1978 à 1980. Il existe des tests formels pour les valeurs aberrantes univariées pour les données normales (par exemple le test de Grubbs et le test de ratio de Dixon). Il existe des tests pour les valeurs aberrantes multivariées et les séries chronologiques. Le livre de Barnett et Lewis sur "Outliers in Statistical Data" est la Bible sur les valeurs aberrantes et couvre à peu près tout.

Lorsque j'étais à Oak Ridge pour travailler sur la validation des données, nous disposions de grands ensembles de données multivariés. Pour les valeurs aberrantes univariées, il y a une direction pour les extrêmes (très au-dessus de la moyenne et très en dessous de la moyenne). Mais pour les valeurs aberrantes multivariées, il existe de nombreuses directions pour rechercher les valeurs aberrantes. Notre philosophie était de réfléchir à l'utilisation prévue des données. Si vous essayez d'estimer certains paramètres tels qu'une corrélation bivariée ou un coefficient de régression, vous voulez regarder dans la direction qui fournit le plus grand effet sur le paramètre d'intérêt. À cette époque, j'avais lu l'article non publié de Mallows sur les fonctions d'influence. L'utilisation des fonctions d'influence pour détecter les valeurs aberrantes est couverte dans le livre d'analyse multivariée de Gnanadesikan. Bien sûr, vous pouvez également le trouver à Barnett et Lewis.

La fonction d'influence d'un paramètre est définie aux points de l'espace multivarié des observations et mesure essentiellement la différence entre l'estimation du paramètre lorsque le point de données est inclus et lorsqu'il est omis. Vous pouvez faire de telles estimations avec chaque point d'échantillonnage, mais vous pouvez généralement dériver une forme fonctionnelle agréable pour la fonction d'influence qui donne un aperçu et un calcul plus rapide.

Par exemple, dans mon article publié dans l' American Journal of Mathematical and Management Science en 1982 "La fonction d'influence et son application à la validation des données", je montre la formule analytique de la fonction d'influence pour la corrélation bivariée et le fait que les contours de l'influence constante sont des hyperboles. Ainsi, les contours indiquent la direction dans le plan où la fonction d'influence augmente le plus rapidement.

Dans mon article, je montre comment nous avons appliqué la fonction d'influence pour la corrélation bivariée avec les données FPC Form 4 sur la génération et la consommation d'énergie. Il existe une forte corrélation positive claire entre les deux et nous avons trouvé quelques valeurs aberrantes qui ont fortement influencé l'estimation de la corrélation. Une enquête plus approfondie a montré qu'au moins un des points était erroné et nous avons pu le corriger.

Mais un point important que je mentionne toujours lorsque je parle de valeurs aberrantes est que le rejet automatique est faux. La valeur aberrante n'est pas toujours une erreur et fournit parfois des informations importantes sur les données. Les données valides ne doivent pas être supprimées simplement parce qu'elles ne sont pas conformes à notre théorie de la réalité. Que cela soit difficile ou non, la raison pour laquelle la valeur aberrante s'est produite doit toujours être recherchée.

Je dois mentionner que ce n'est pas la première fois que des valeurs aberrantes multivariées sont discutées sur ce site. Une recherche de valeurs aberrantes mènerait probablement à plusieurs questions où des valeurs aberrantes multivariées ont été discutées. Je sais que j'ai déjà référencé mon article et ces livres et leur ai donné des liens.

De plus, lorsque le rejet des valeurs aberrantes est discuté, beaucoup d'entre nous sur ce site l'ont recommandé, surtout si cela se fait uniquement sur la base d'un test statistique. Peter Huber mentionne souvent une estimation robuste comme alternative au rejet des valeurs aberrantes. L'idée est que des procédures robustes pondéreront les valeurs aberrantes en réduisant leur effet sur l'estimation sans l'étape lourde de les rejeter et en utilisant un estimateur non robuste.

La fonction d'influence a en fait été développée à l'origine par Frank Hampel dans sa thèse de doctorat au début des années 1970 (1974 je pense). Son idée était en fait d'utiliser des fonctions d'influence pour identifier des estimateurs qui n'étaient pas robustes par rapport aux valeurs aberrantes et pour aider à développer des estimateurs robustes.

Voici un lien vers une discussion précédente sur ce sujet où j'ai mentionné certains de mes travaux sur la détection des valeurs aberrantes dans les séries chronologiques à l'aide des fonctions d'influence.

Michael R. Chernick
la source
2

Une autre approche simple pour traiter les valeurs aberrantes consiste à utiliser des statistiques non paramétriques. Probablement avec la taille de votre échantillon, un rho de Spearman fonctionnerait bien comme indice de la corrélation. (Notez, cependant, que les statistiques non paramétriques d'ordre de classement ne vous aident pas beaucoup avec les relations non linéaires.)

Si vous souhaitez utiliser un r de Pearson (une statistique paramétrique) et si vous n'êtes pas en mesure de calculer la distance de Cook, vous pouvez utiliser une règle empirique standard pour tout point de données supérieur à 2,67 écarts-types (sd) par rapport à la moyenne. , ou 4,67 sd de la moyenne est une valeur aberrante ou extrême, respectivement. Il s'agit de valeurs limites typiques pour les valeurs aberrantes et les points de données extrêmes qui sont utilisées dans un programme d'analyse statistique standard (SPSS).

Ce n'est pas parce qu'un point de données est une valeur aberrante que ce sont de mauvaises données à éliminer. Vous pouvez calculer votre corrélation avec et sans points extrêmes et partir de là.

Joel W.
la source
1

Vous voudrez peut-être essayer Cook's Distance. Voir l'article wikipedia pour les coupures suggérées. De plus, si vous vous dirigez vers un modèle de régression, vous souhaiterez peut-être essayer une régression robuste.

Eric Brown
la source
1
Cela ressemble plus à un commentaire qu'à une réponse; les réponses sont généralement plus longues et plus détaillées. Par exemple, si vous incluez un raisonnement expliquant pourquoi la distance de Cook est un bon test pour les valeurs aberrantes et ainsi de suite, ce serait une réponse.
Peter Flom - Réintègre Monica
1

Tout d'abord, ne supprimez pas les valeurs atypiques sauf si vous êtes sûr qu'elles sont hors de l'étude! Ils peuvent contenir des informations importantes (variabilité). Vous devez les supprimer s'il est évident que la valeur aberrante est due à des données mal saisies ou mesurées. Si vous ne connaissez pas la méthode d'échantillonnage utilisée pour obtenir vos données, vous devez identifier les valeurs atypiques et leurs effets comme suit:

  1. Degré d'anomalie: on s'attend à 5% des observations avec des résidus standardisés (eje)> 2. Si vous avez des résidus plus élevés, vous pouvez suspecter des valeurs aberrantes.

  2. Degré de distance par rapport à la gravité centrale dans l'espace des x: hjeje(influence). Quand certainshjeje est très élevé, vous avez une observation qui peut fausser votre modèle car elle est hors de portée de votre étude.

  3. Degré d'influence sur le modèle ajusté: Les points d'influence sont ceux qui ont suffisamment de poids pour changer votre modèle. Ensuite, les coefficients du modèle ajusté utilisant toutes les n observations sont très différents des coefficients du modèle ajusté utilisant tous les points mais pas cette observationje-th.
    La distance de Cook ou D de Cook est une estimation couramment utilisée de l'influence d'un point de données. :Cje=eje2·hjeje/[(1-hjeje)·p]

Solutions possibles:

  • Transformer des variables et / ou ajouter de nouvelles variables au modèle.
  • Pour les observations influentes qui ne sont que des valeurs aberrantes, sinon nombreuses, vous pouvez supprimer ces individus.
user7334982
la source