Suite à ma question ici , je me demande s'il existe des opinions bien arrêtées pour ou contre l'utilisation de l'écart-type pour détecter les valeurs aberrantes (par exemple, tout point de données supérieur à 2 écarts-types est une valeur aberrante).
Je sais que cela dépend du contexte de l'étude, par exemple un point de données, 48 kg, sera certainement une valeur aberrante dans une étude du poids des bébés mais pas dans une étude du poids des adultes.
Les valeurs aberrantes sont le résultat d'un certain nombre de facteurs tels que les erreurs de saisie de données. Dans mon cas, ces processus sont robustes.
Je suppose que la question que je pose est la suivante: l'utilisation de l'écart-type est-elle une bonne méthode pour détecter les valeurs aberrantes?
Réponses:
Certaines valeurs aberrantes sont clairement impossibles . Vous mentionnez 48 kg pour le poids de bébé. Il s'agit clairement d'une erreur. Ce n'est pas une question statistique , c'est une question de fond. Il n'y a pas de bébés humains de 48 kg. Toute méthode statistique identifiera un tel point.
Personnellement, plutôt que de me fier à n'importe quel test (même approprié, comme recommandé par @Michael), je représenterais graphiquement les données. Le fait de montrer qu'une certaine valeur (ou valeurs) de données est peu probable sous une distribution hypothétique ne signifie pas que la valeur est incorrecte et par conséquent les valeurs ne doivent pas être supprimées automatiquement juste parce qu'elles sont extrêmes.
De plus, la règle que vous proposez (2 SD à partir de la moyenne) est une ancienne qui était utilisée dans les jours qui ont précédé les ordinateurs pour faciliter les choses. Si N est 100 000, alors vous vous attendez certainement à pas mal de valeurs supérieures à 2 SD par rapport à la moyenne, même s'il existe une distribution normale parfaite.
Mais que faire si la distribution est mauvaise? Supposons que, dans la population, la variable en question ne soit pas normalement distribuée mais ait des queues plus lourdes que cela?
la source
Oui. C'est une mauvaise façon de "détecter" les oultiers. Pour des données normalement distribuées, une telle méthode qualifierait 5% des observations parfaitement bonnes (mais légèrement extrêmes) de "valeurs aberrantes". De plus, lorsque vous avez un échantillon de taille n et que vous recherchez des observations extrêmement hautes ou basses pour les appeler des valeurs aberrantes, vous regardez vraiment les statistiques d'ordre extrême. Le maximum et le minimum d'un échantillon normalement distribué ne sont pas normalement distribués. Le test doit donc être basé sur la distribution des extrêmes. C'est ce que font le test de Grubbs et le test de ratio de Dixon, comme je l'ai mentionné plusieurs fois auparavant. Même lorsque vous utilisez un test approprié pour les valeurs aberrantes, une observation ne doit pas être rejetée simplement parce qu'elle est exceptionnellement extrême. Vous devez d'abord rechercher pourquoi l'observation extrême s'est produite en premier.
la source
Lorsque vous demandez combien d'écarts-types par rapport à la moyenne d'une valeur aberrante potentielle, n'oubliez pas que la valeur aberrante elle-même augmentera l'écart-type et affectera également la valeur de la moyenne. Si vous avez N valeurs, le rapport de la distance à la moyenne divisée par le SD ne peut jamais dépasser (N-1) / sqrt (N). C'est le plus important, bien sûr, avec de minuscules échantillons. Par exemple, si N = 3, aucune valeur aberrante ne peut être à plus de 1,155 * SD de la moyenne, il est donc impossible qu'une valeur soit à plus de 2 SD de la moyenne. (Cela suppose, bien sûr, que vous calculez l'échantillon SD à partir des données disponibles et que vous n'avez pas de raison théorique de connaître la population SD).
Les valeurs critiques pour le test de Grubbs ont été calculées pour en tenir compte et dépendent donc de la taille de l'échantillon.
la source
Je pense que le contexte est tout. Pour l'exemple donné, oui, clairement un bébé de 48 kg est erroné, et l'utilisation de 2 écarts-types rattraperait ce cas. Cependant, il n'y a aucune raison de penser que l'utilisation de 2 écarts-types (ou tout autre multiple de SD) est appropriée pour d'autres données. Par exemple, si vous examinez les résidus de pesticides dans les eaux de surface, les données au-delà de 2 écarts-types sont assez courantes. Ces valeurs particulièrement élevées ne sont pas des «valeurs aberrantes», même si elles résident loin de la moyenne, car elles sont dues à des pluies, à des applications récentes de pesticides, etc. Bien sûr, vous pouvez créer d'autres «règles de base» (pourquoi pas 1,5 × SD, ou 3.1415927 × SD?), Mais franchement, ces règles sont difficiles à défendre, et leur succès ou leur échec changera en fonction des données que vous examinez. Je pense qu'en utilisant le jugement et la logique, malgré la subjectivité, est une meilleure méthode pour se débarrasser des valeurs aberrantes, plutôt que d'utiliser une règle arbitraire. Dans ce cas, vous n'avez pas eu besoin d'un 2 × SD pour détecter la valeur aberrante de 48 kg - vous avez pu le raisonner. N'est-ce pas une méthode supérieure? Dans les cas où vous ne pouvez pas le raisonner, eh bien, les règles arbitraires sont-elles meilleures?
la source