La définition standard d'une valeur aberrante pour un diagramme de Box et Whisker est des points en dehors de la plage , où et est le premier quartile et est le troisième quartile des données.
Quelle est la base de cette définition? Avec un grand nombre de points, même une distribution parfaitement normale renvoie des valeurs aberrantes.
Par exemple, supposons que vous commenciez par la séquence:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Cette séquence crée un classement centile de 4000 points de données.
Le test de normalité pour les qnorm
résultats de cette série se traduit par:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Les résultats sont exactement comme prévu: la normalité d'une distribution normale est normale. La création d'un qqnorm(qnorm(xseq))
crée (comme prévu) une ligne droite de données:
Si un boxplot des mêmes données est créé, boxplot(qnorm(xseq))
produit le résultat:
Le boxplot, contrairement à shapiro.test
, ad.test
ou qqnorm
identifie plusieurs points comme des valeurs aberrantes lorsque la taille de l'échantillon est suffisamment grande (comme dans cet exemple).
Réponses:
Boîtes à moustaches
Voici une section pertinente de Hoaglin, Mosteller et Tukey (2000): Understanding Robust and Exploratory Data Analysis. Wiley . Chapitre 3, "Boxplots and Batch Comparison", écrit par John D. Emerson et Judith Strenio (à partir de la page 62):
Ils continuent et montrent l'application à une population gaussienne (page 63):
Donc
De plus, ils écrivent
Ils fournissent un tableau avec la proportion attendue de valeurs qui se situent en dehors des seuils aberrants (étiquetés «Total% Out»):
Ces seuils n'ont donc jamais été destinés à être une règle stricte sur les points de données aberrants ou non. Comme vous l'avez remarqué, même une distribution normale parfaite devrait présenter des "valeurs aberrantes" dans un boxplot.
Valeurs aberrantes
À ma connaissance, il n'existe pas de définition universellement acceptée des valeurs aberrantes. J'aime la définition de Hawkins (1980):
Idéalement, vous ne devez traiter les points de données comme des valeurs aberrantes qu'une fois que vous comprenez pourquoi ils n'appartiennent pas au reste des données. Une règle simple ne suffit pas. Un bon traitement des valeurs aberrantes peut être trouvé dans Aggarwal (2013).
Les références
Aggarwal CC (2013): analyse des valeurs aberrantes. Springer.
Hawkins D (1980): Identification des valeurs aberrantes. Chapman et Hall.
Hoaglin, Mosteller et Tukey (2000): Understanding Robust and Exploratory Data Analysis. Wiley.
la source
Le mot `` valeur aberrante '' est souvent supposé signifier quelque chose comme `` une valeur de données qui est erronée, trompeuse, erronée ou cassée et devrait donc être omise de l'analyse '', mais ce n'est pas ce que Tukey voulait dire par son utilisation des valeurs aberrantes. Les valeurs aberrantes sont simplement des points éloignés de la médiane de l'ensemble de données.
Votre point sur l'attente de valeurs aberrantes dans de nombreux ensembles de données est correct et important. Et il y a beaucoup de bonnes questions et réponses sur le sujet.
Suppression des valeurs aberrantes des données asymétriques
Est-il approprié d'identifier et de supprimer les valeurs aberrantes car elles causent des problèmes?
la source
Comme pour toutes les méthodes de détection des valeurs aberrantes, il faut faire preuve de prudence et de réflexion pour déterminer quelles valeurs sont vraiment aberrantes. Je pense que le boxplot fournit simplement une bonne visualisation de la propagation des données et toute vraie valeur aberrante sera facile à détecter.
la source
Je pense que vous devriez vous inquiéter si vous n'obtenez pas de valeurs aberrantes dans le cadre d'une distribution normale, sinon vous devriez peut-être chercher des raisons pour lesquelles il n'y en a pas. De toute évidence, ils doivent être examinés pour s'assurer qu'ils n'enregistrent pas d'erreurs, mais sinon, il faut s'y attendre.
la source