Détection des valeurs aberrantes à l'aide des écarts-types

27

Suite à ma question ici , je me demande s'il existe des opinions bien arrêtées pour ou contre l'utilisation de l'écart-type pour détecter les valeurs aberrantes (par exemple, tout point de données supérieur à 2 écarts-types est une valeur aberrante).

Je sais que cela dépend du contexte de l'étude, par exemple un point de données, 48 ​​kg, sera certainement une valeur aberrante dans une étude du poids des bébés mais pas dans une étude du poids des adultes.

Les valeurs aberrantes sont le résultat d'un certain nombre de facteurs tels que les erreurs de saisie de données. Dans mon cas, ces processus sont robustes.

Je suppose que la question que je pose est la suivante: l'utilisation de l'écart-type est-elle une bonne méthode pour détecter les valeurs aberrantes?

Amarald
la source
1
Vous dites: "Dans mon cas, ces processus sont robustes". Ce qui signifie? Que vous êtes sûr de ne pas avoir d'erreurs de saisie de données?
Wayne
Il y a tellement de bonnes réponses ici que je ne sais pas quelle réponse accepter! Toute indication à ce sujet serait utile
Amarald
En général, sélectionnez celui qui, selon vous, répond le plus directement et le plus clairement à votre question, et si c'est trop difficile à dire, j'irais avec celui qui a le plus de votes. Même si c'est un peu pénible de décider lequel, il est important de récompenser quelqu'un qui a pris le temps de répondre.
Wayne
1
PS Pourriez-vous s'il vous plaît clarifier avec une note ce que vous entendez par "ces processus sont robustes"? Ce n'est pas critique pour les réponses, qui se concentrent sur la normalité, etc., mais je pense que cela a une certaine incidence.
Wayne
3
Les valeurs aberrantes ne sont pas sans modèle. Une valeur aberrante inhabituelle sous un modèle peut être un point parfaitement ordinaire sous un autre. La première question devrait être "pourquoi essayez-vous de détecter les valeurs aberrantes?" (plutôt que de faire autre chose, comme utiliser des méthodes qui leur sont robustes), et la seconde serait "qu'est-ce qui fait d'une observation une valeur aberrante dans votre application particulière?"
Glen_b -Reinstate Monica

Réponses:

26

Certaines valeurs aberrantes sont clairement impossibles . Vous mentionnez 48 kg pour le poids de bébé. Il s'agit clairement d'une erreur. Ce n'est pas une question statistique , c'est une question de fond. Il n'y a pas de bébés humains de 48 kg. Toute méthode statistique identifiera un tel point.

Personnellement, plutôt que de me fier à n'importe quel test (même approprié, comme recommandé par @Michael), je représenterais graphiquement les données. Le fait de montrer qu'une certaine valeur (ou valeurs) de données est peu probable sous une distribution hypothétique ne signifie pas que la valeur est incorrecte et par conséquent les valeurs ne doivent pas être supprimées automatiquement juste parce qu'elles sont extrêmes.

De plus, la règle que vous proposez (2 SD à partir de la moyenne) est une ancienne qui était utilisée dans les jours qui ont précédé les ordinateurs pour faciliter les choses. Si N est 100 000, alors vous vous attendez certainement à pas mal de valeurs supérieures à 2 SD par rapport à la moyenne, même s'il existe une distribution normale parfaite.

Mais que faire si la distribution est mauvaise? Supposons que, dans la population, la variable en question ne soit pas normalement distribuée mais ait des queues plus lourdes que cela?

Peter Flom - Réintégrer Monica
la source
1
Quelle est la plus grande valeur de poids pour bébé que vous considérez comme possible?
mark999
2
Je ne sais pas. Mais on pourrait chercher le record. Selon answers.com (d'un google rapide), il pesait 23,12 livres, né de deux parents atteints de gigantisme. Si je faisais la recherche, je vérifierais plus loin.
Peter Flom - Réintègre Monica
Et si on ne peut pas inspecter visuellement les données (c'est-à-dire qu'elles pourraient faire partie d'un processus automatique?)
user90772
Ajoutez des graphiques à l'automatisation, d'une manière ou d'une autre.
Peter Flom - Réintègre Monica
24

Oui. C'est une mauvaise façon de "détecter" les oultiers. Pour des données normalement distribuées, une telle méthode qualifierait 5% des observations parfaitement bonnes (mais légèrement extrêmes) de "valeurs aberrantes". De plus, lorsque vous avez un échantillon de taille n et que vous recherchez des observations extrêmement hautes ou basses pour les appeler des valeurs aberrantes, vous regardez vraiment les statistiques d'ordre extrême. Le maximum et le minimum d'un échantillon normalement distribué ne sont pas normalement distribués. Le test doit donc être basé sur la distribution des extrêmes. C'est ce que font le test de Grubbs et le test de ratio de Dixon, comme je l'ai mentionné plusieurs fois auparavant. Même lorsque vous utilisez un test approprié pour les valeurs aberrantes, une observation ne doit pas être rejetée simplement parce qu'elle est exceptionnellement extrême. Vous devez d'abord rechercher pourquoi l'observation extrême s'est produite en premier.

Michael R. Chernick
la source
1
Tout aussi "mauvais" que de rejeter H0 sur la base d'une valeur de p faible.
Leo
16

Lorsque vous demandez combien d'écarts-types par rapport à la moyenne d'une valeur aberrante potentielle, n'oubliez pas que la valeur aberrante elle-même augmentera l'écart-type et affectera également la valeur de la moyenne. Si vous avez N valeurs, le rapport de la distance à la moyenne divisée par le SD ne peut jamais dépasser (N-1) / sqrt (N). C'est le plus important, bien sûr, avec de minuscules échantillons. Par exemple, si N = 3, aucune valeur aberrante ne peut être à plus de 1,155 * SD de la moyenne, il est donc impossible qu'une valeur soit à plus de 2 SD de la moyenne. (Cela suppose, bien sûr, que vous calculez l'échantillon SD à partir des données disponibles et que vous n'avez pas de raison théorique de connaître la population SD).

Les valeurs critiques pour le test de Grubbs ont été calculées pour en tenir compte et dépendent donc de la taille de l'échantillon.

Harvey Motulsky
la source
12

Je pense que le contexte est tout. Pour l'exemple donné, oui, clairement un bébé de 48 kg est erroné, et l'utilisation de 2 écarts-types rattraperait ce cas. Cependant, il n'y a aucune raison de penser que l'utilisation de 2 écarts-types (ou tout autre multiple de SD) est appropriée pour d'autres données. Par exemple, si vous examinez les résidus de pesticides dans les eaux de surface, les données au-delà de 2 écarts-types sont assez courantes. Ces valeurs particulièrement élevées ne sont pas des «valeurs aberrantes», même si elles résident loin de la moyenne, car elles sont dues à des pluies, à des applications récentes de pesticides, etc. Bien sûr, vous pouvez créer d'autres «règles de base» (pourquoi pas 1,5 × SD, ou 3.1415927 × SD?), Mais franchement, ces règles sont difficiles à défendre, et leur succès ou leur échec changera en fonction des données que vous examinez. Je pense qu'en utilisant le jugement et la logique, malgré la subjectivité, est une meilleure méthode pour se débarrasser des valeurs aberrantes, plutôt que d'utiliser une règle arbitraire. Dans ce cas, vous n'avez pas eu besoin d'un 2 × SD pour détecter la valeur aberrante de 48 kg - vous avez pu le raisonner. N'est-ce pas une méthode supérieure? Dans les cas où vous ne pouvez pas le raisonner, eh bien, les règles arbitraires sont-elles meilleures?

P auritus
la source