Quelle est la base de la définition de la valeur aberrante du diagramme de Box et Whisker Plot?

17

La définition standard d'une valeur aberrante pour un diagramme de Box et Whisker est des points en dehors de la plage , où et est le premier quartile et est le troisième quartile des données.{Q1-1,5jeQR,Q3+1,5jeQR}jeQR=Q3-Q1Q1Q3

Quelle est la base de cette définition? Avec un grand nombre de points, même une distribution parfaitement normale renvoie des valeurs aberrantes.

Par exemple, supposons que vous commenciez par la séquence:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

Cette séquence crée un classement centile de 4000 points de données.

Le test de normalité pour les qnormrésultats de cette série se traduit par:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

Les résultats sont exactement comme prévu: la normalité d'une distribution normale est normale. La création d'un qqnorm(qnorm(xseq))crée (comme prévu) une ligne droite de données:

qq tracé normal des données

Si un boxplot des mêmes données est créé, boxplot(qnorm(xseq))produit le résultat:

boxplot des données

Le boxplot, contrairement à shapiro.test, ad.testou qqnormidentifie plusieurs points comme des valeurs aberrantes lorsque la taille de l'échantillon est suffisamment grande (comme dans cet exemple).

Tavrock
la source
qu'entendez-vous par «base»? ceci est une définition, et personne ne dit qu'une distribution parfaitement normale n'a pas de valeurs aberrantes
Haitao Du
2
@ hxd1011, la définition de la distribution ne peut pas être une valeur aberrante en soi. Cette définition pour tester les valeurs aberrantes sur une parcelle de boîte et de moustaches est un test / quelque chose / pour fournir le résultat, quel que soit le test, ce serait la base du test.
Tavrock
Je pense que la définition des valeurs aberrantes boîte et moustache n'est que quelques heuristiques ... Aussi, pourquoi la définition de la distribution ne peut pas avoir une valeur aberrante de soi?
Haitao Du
3
Peu importe la règle que vous choisissez, vous finirez par dire "avec un grand nombre de points, même une distribution parfaitement normale renvoie des valeurs aberrantes". [Essayez de trouver un moyen d'identifier utilement les valeurs aberrantes qui ne peuvent rejeter aucun point si vous échantillonnez à partir d'une distribution normale.]
Glen_b -Reinstate Monica
1
Une anecdote beaucoup répétée est que John Tukey, qui est venu avec cette règle empirique, a été demandé pourquoi 1,5; et a dit que 1 serait trop peu et 2 serait trop. Étant donné le nombre de fois où je l'ai vu mal interprété comme un critère définitif, oraculaire, je serais plus qu'heureux qu'il disparaisse. Maintenant, nous avons tous des ordinateurs qui peuvent afficher toutes les données!
Nick Cox

Réponses:

25

Boîtes à moustaches

Voici une section pertinente de Hoaglin, Mosteller et Tukey (2000): Understanding Robust and Exploratory Data Analysis. Wiley . Chapitre 3, "Boxplots and Batch Comparison", écrit par John D. Emerson et Judith Strenio (à partir de la page 62):

FL-32FFU+32F

FLFUFFU-FL

Ils continuent et montrent l'application à une population gaussienne (page 63):

010-0,67450,67451,34943322.02352±2,66922399,3%

Donc

0,7%

De plus, ils écrivent

[...] Ainsi, nous pouvons juger si nos données semblent plus lourdes que gaussiennes par le nombre de points dépassant les seuils aberrants. [...]

Ils fournissent un tableau avec la proportion attendue de valeurs qui se situent en dehors des seuils aberrants (étiquetés «Total% Out»):

Tableau 3-2

Ces seuils n'ont donc jamais été destinés à être une règle stricte sur les points de données aberrants ou non. Comme vous l'avez remarqué, même une distribution normale parfaite devrait présenter des "valeurs aberrantes" dans un boxplot.


Valeurs aberrantes

À ma connaissance, il n'existe pas de définition universellement acceptée des valeurs aberrantes. J'aime la définition de Hawkins (1980):

Une valeur aberrante est une observation qui s'écarte tellement des autres observations qu'elle fait naître des soupçons qu'elle a été générée par un mécanisme différent.

Idéalement, vous ne devez traiter les points de données comme des valeurs aberrantes qu'une fois que vous comprenez pourquoi ils n'appartiennent pas au reste des données. Une règle simple ne suffit pas. Un bon traitement des valeurs aberrantes peut être trouvé dans Aggarwal (2013).

Les références

Aggarwal CC (2013): analyse des valeurs aberrantes. Springer.
Hawkins D (1980): Identification des valeurs aberrantes. Chapman et Hall.
Hoaglin, Mosteller et Tukey (2000): Understanding Robust and Exploratory Data Analysis. Wiley.

COOLSerdash
la source
7

Le mot `` valeur aberrante '' est souvent supposé signifier quelque chose comme `` une valeur de données qui est erronée, trompeuse, erronée ou cassée et devrait donc être omise de l'analyse '', mais ce n'est pas ce que Tukey voulait dire par son utilisation des valeurs aberrantes. Les valeurs aberrantes sont simplement des points éloignés de la médiane de l'ensemble de données.

Votre point sur l'attente de valeurs aberrantes dans de nombreux ensembles de données est correct et important. Et il y a beaucoup de bonnes questions et réponses sur le sujet.

Suppression des valeurs aberrantes des données asymétriques

Est-il approprié d'identifier et de supprimer les valeurs aberrantes car elles causent des problèmes?

Michael Lew - réintègre Monica
la source
2

Comme pour toutes les méthodes de détection des valeurs aberrantes, il faut faire preuve de prudence et de réflexion pour déterminer quelles valeurs sont vraiment aberrantes. Je pense que le boxplot fournit simplement une bonne visualisation de la propagation des données et toute vraie valeur aberrante sera facile à détecter.

bdeonovic
la source
0

Je pense que vous devriez vous inquiéter si vous n'obtenez pas de valeurs aberrantes dans le cadre d'une distribution normale, sinon vous devriez peut-être chercher des raisons pour lesquelles il n'y en a pas. De toute évidence, ils doivent être examinés pour s'assurer qu'ils n'enregistrent pas d'erreurs, mais sinon, il faut s'y attendre.

Robert Jones
la source