boîte à moustaches dans R: les valeurs aberrantes comptent-elles lorsque les quantiles sont déterminés?

8

J'ai un jeu de données à 1 dimension et j'utilise la boxplotfonction pour faire un diagramme en boîte. Ensuite, je peux voir que j'ai des valeurs aberrantes.

Les valeurs aberrantes comptent-elles lorsque les quantiles sont déterminés?

Y a-t-il une bonne / mauvaise façon ou les deux sont-elles correctes tant que nous savons clairement quelle méthode a été utilisée? Si oui, comment R le fait-il?

k.dkhk
la source
6
C'est en partie une question d'utilisation de l'anglais, mais les programmes boxplot ne déterminent pas les valeurs aberrantes. Tout au plus, ils tracent séparément des points qui devraient être réfléchis et qui pourraient être des valeurs aberrantes (univariées).
Nick Cox
1
Pour un grand échantillon d'une distribution exponentielle, environ de l'échantillon peuvent apparaître au-delà de la moustache supérieure. Si vous deviez les exclure, vous pourriez obtenir des quantiles sensiblement erronés4.8%
Henry

Réponses:

12

R - comme beaucoup, mais pas tous les programmes - utilise principalement la définition * de Tukey de la façon de dessiner un boxplot.

L' échantillon original entier est utilisé pour calculer les charnières (où les extrémités des boîtes sont dessinées).

Les charnières sont très similaires aux quartiles (on pourrait dire qu'elles sont un moyen particulier de calculer les quartiles supérieur et inférieur qui diffère légèrement des définitions plus courantes des quartiles - bien qu'il existe également un certain nombre de définitions différentes des quartiles d'échantillonnage; en effet, R propose neuf calculs de quartile distincts, sans compter les charnières elles-mêmes).

La charnière supérieure est à la médiane de la moitié supérieure des données (la moitié supérieure comprend la médiane de l'échantillon d'origine s'il s'agissait d'un point de données) et la charnière inférieure est à la médiane de la moitié inférieure (qui comprend également la médiane de l'échantillon d'origine s'il était à un point de données):

Diagramme illustrant le calcul des charnières

Ainsi, par exemple avec 6 observations, les charnières sont la deuxième plus grande et la 5ème plus grande observation (3 points dans chaque moitié). Avec 9 observations, les charnières sont les 3e et 8e plus grandes (5 points dans chaque moitié, la médiane venant dans les deux moitiés). Avec 11 observations, la charnière inférieure est à mi-chemin entre la 3ème et la 4ème plus grande observation et la charnière supérieure est à mi-chemin entre la 8ème et la 9ème plus grande observation (6 points dans chaque moitié). L'illustration montre le cas avec 13 observations.

Notez que les quartiles (/ charnières) ne sont pas du tout sensibles aux valeurs des valeurs aberrantes, seulement au fait qu'ils sont en dehors des quartiles. Vous pouvez les déplacer tous près des extrémités de la boîte (afin qu'il n'y ait pas de valeurs aberrantes) sans changer les quartiles / charnières, ou aussi loin que vous le souhaitez (donc ils sont tous loin), encore une fois sans changer les valeurs des quartiles . Il n'y aurait donc vraiment pas besoin de faire quoi que ce soit en cas de "valeur aberrante".


* Ou plutôt, l'un d'eux; Tukey a donné plusieurs définitions, bien que pour les besoins actuels, nous ayons seulement à nous soucier de la façon dont le calcul des charnières fonctionne; Je dis surtout parce que la version avec "valeurs aberrantes" serait ce que Tukey a appelé un tracé schématique, mais ils ne font pas celui avec deux types distincts de marques "aberrantes".

Glen_b -Reinstate Monica
la source
La définition des charnières dans ce contexte est-elle la même que la description de Tukey de l'utilisation de la quatrième diffusion ? En lisant Comprendre l'analyse robuste et exploratoire des données, il déclare: «Certains lecteurs connaissent peut-être la plage interquartile , qui est très proche de la quatrième diffusion car les quartiles sont presque les mêmes que les quarts. Je n'ai pas vu dans ce livre où il a jamais expliqué la différence entre les deux.
Tavrock
Les quarts @Tavrock ont la même définition que les charnières . Les deux termes sont des inventions de Tukey. Donc, "écart de charnière" est le même que "quatrième écart".
Glen_b -Reinstate Monica