J'ai un jeu de données à 1 dimension et j'utilise la boxplot
fonction pour faire un diagramme en boîte. Ensuite, je peux voir que j'ai des valeurs aberrantes.
Les valeurs aberrantes comptent-elles lorsque les quantiles sont déterminés?
Y a-t-il une bonne / mauvaise façon ou les deux sont-elles correctes tant que nous savons clairement quelle méthode a été utilisée? Si oui, comment R le fait-il?
r
data-visualization
boxplot
k.dkhk
la source
la source
Réponses:
R - comme beaucoup, mais pas tous les programmes - utilise principalement la définition * de Tukey de la façon de dessiner un boxplot.
L' échantillon original entier est utilisé pour calculer les charnières (où les extrémités des boîtes sont dessinées).
Les charnières sont très similaires aux quartiles (on pourrait dire qu'elles sont un moyen particulier de calculer les quartiles supérieur et inférieur qui diffère légèrement des définitions plus courantes des quartiles - bien qu'il existe également un certain nombre de définitions différentes des quartiles d'échantillonnage; en effet, R propose neuf calculs de quartile distincts, sans compter les charnières elles-mêmes).
La charnière supérieure est à la médiane de la moitié supérieure des données (la moitié supérieure comprend la médiane de l'échantillon d'origine s'il s'agissait d'un point de données) et la charnière inférieure est à la médiane de la moitié inférieure (qui comprend également la médiane de l'échantillon d'origine s'il était à un point de données):
Ainsi, par exemple avec 6 observations, les charnières sont la deuxième plus grande et la 5ème plus grande observation (3 points dans chaque moitié). Avec 9 observations, les charnières sont les 3e et 8e plus grandes (5 points dans chaque moitié, la médiane venant dans les deux moitiés). Avec 11 observations, la charnière inférieure est à mi-chemin entre la 3ème et la 4ème plus grande observation et la charnière supérieure est à mi-chemin entre la 8ème et la 9ème plus grande observation (6 points dans chaque moitié). L'illustration montre le cas avec 13 observations.
Notez que les quartiles (/ charnières) ne sont pas du tout sensibles aux valeurs des valeurs aberrantes, seulement au fait qu'ils sont en dehors des quartiles. Vous pouvez les déplacer tous près des extrémités de la boîte (afin qu'il n'y ait pas de valeurs aberrantes) sans changer les quartiles / charnières, ou aussi loin que vous le souhaitez (donc ils sont tous loin), encore une fois sans changer les valeurs des quartiles . Il n'y aurait donc vraiment pas besoin de faire quoi que ce soit en cas de "valeur aberrante".
* Ou plutôt, l'un d'eux; Tukey a donné plusieurs définitions, bien que pour les besoins actuels, nous ayons seulement à nous soucier de la façon dont le calcul des charnières fonctionne; Je dis surtout parce que la version avec "valeurs aberrantes" serait ce que Tukey a appelé un tracé schématique, mais ils ne font pas celui avec deux types distincts de marques "aberrantes".
la source