Comment évaluer l'asymétrie à partir d'un boxplot?

Comment décider de l'asymétrie en regardant un boxplot construit à partir de ces données:

340, 300, 520, 340, 320, 290, 260, 330

Un livre dit: "Si le quartile inférieur est plus éloigné de la médiane que le quartile supérieur, alors la distribution est faussée." Plusieurs autres sources ont dit à peu près la même chose.

J'ai construit un boxplot en utilisant R. C'est comme ceci:

boîte à moustaches

Je suppose que c'est asymétrique , car le quartile inférieur est plus éloigné de la médiane que le quartile supérieur. Mais le problème est lorsque j'utilise une autre méthode pour déterminer l'asymétrie:

moyenne (337,5)> médiane (325)

Cela indique que les données sont faussées positivement . Ai-je oublié quelque chose?

outliers skewness boxplot JerryW
la source

Réponses:

Une mesure de l'asymétrie est basée sur la médiane moyenne - le deuxième coefficient d'asymétrie de Pearson .

Une autre mesure de l'asymétrie est basée sur les différences relatives de quartile (Q3-Q2) vs (Q2-Q1) exprimées sous forme de ratio

Lorsque (Q3-Q2) vs (Q2-Q1) est plutôt exprimé sous la forme d'une différence (ou médiane médiane équivalente), cela doit être mis à l'échelle pour le rendre sans dimension (comme cela est généralement nécessaire pour une mesure d'asymétrie), par exemple par l'IQR, comme ici (en mettant ). $u=0.25$

La mesure la plus courante est bien sûr l’ asymétrie au troisième moment .

Il n'y a aucune raison que ces trois mesures soient nécessairement cohérentes. Chacun d'entre eux pourrait être différent des deux autres.

Ce que nous considérons comme une «asymétrie» est un concept quelque peu glissant et mal défini. Voir ici pour plus de discussion.

Si nous regardons vos données avec un qqplot normal:

entrez la description de l'image ici

[La ligne marquée là-bas est basée uniquement sur les 6 premiers points, parce que je veux discuter de l'écart des deux derniers par rapport au modèle.]

On voit que les 6 plus petits points se situent presque parfaitement sur la ligne.

Ensuite, le 7ème point est en dessous de la ligne (plus proche du milieu que le deuxième point correspondant depuis l'extrémité gauche), tandis que le huitième point se situe bien au-dessus.

Le 7ème point suggère un léger biais gauche, le dernier, un biais droit plus fort. Si vous ignorez l'un ou l'autre point, l'impression d'asymétrie est entièrement déterminée par l'autre.

Si je devais dire que c'était l'un ou l'autre, j'appellerais cela un "biais correct" mais je soulignerais également que l'impression était entièrement due à l'effet de ce très gros point. Sans cela, il n'y a vraiment rien à dire que c'est juste. (D'un autre côté, sans le 7ème point à la place, ce n'est clairement pas de gauche.)

Nous devons être très prudents lorsque notre impression est entièrement déterminée par des points uniques et peut être inversée en supprimant un point. Ce n'est pas une bonne base pour continuer!

Je pars du principe que ce qui fait une valeur aberrante est le modèle (ce qui est une valeur aberrante par rapport à un modèle peut être tout à fait typique sous un autre modèle).

Je pense qu'une observation au 0,01 centile supérieur (1/10000) d'une normale (3,72 sds au-dessus de la moyenne) est tout aussi aberrante pour le modèle normal qu'une observation au 0,01 centile supérieur d'une distribution exponentielle l'est pour le modèle exponentiel. (Si nous transformons une distribution par sa propre transformée intégrale de probabilité, chacune ira au même uniforme)

Pour voir le problème de l'application de la règle du boxplot à une distribution asymétrique même modérément droite, simulez de grands échantillons à partir d'une distribution exponentielle.

Par exemple, si nous simulons des échantillons de taille 100 à partir d'une normale, nous faisons en moyenne moins d'une valeur aberrante par échantillon. Si nous le faisons avec une exponentielle, nous faisons en moyenne environ 5. Mais il n'y a pas de base réelle pour dire qu'une proportion plus élevée de valeurs exponentielles sont "éloignées" à moins que nous ne le fassions par comparaison avec (disons) un modèle normal. Dans des situations particulières, nous pourrions avoir des raisons spécifiques d'avoir une règle aberrante d'une forme particulière, mais il n'y a pas de règle générale, ce qui nous laisse avec des principes généraux comme celui avec lequel j'ai commencé dans cette sous-section - pour traiter chaque modèle / distribution sur ses propres lumières (si une valeur n'est pas inhabituelle par rapport à un modèle, pourquoi l'appeler une valeur aberrante dans cette situation?)

Pour passer à la question dans le titre :

Bien que ce soit un instrument assez grossier (c'est pourquoi j'ai regardé l'intrigue QQ), il y a plusieurs indications d'asymétrie dans un boxplot - s'il y a au moins un point marqué comme aberrant, il y en a potentiellement (au moins) trois:

entrez la description de l'image ici

Dans cet échantillon (n = 100), les points extérieurs (verts) marquent les extrêmes et avec la médiane suggèrent une asymétrie gauche. Ensuite, les clôtures (bleues) suggèrent (lorsqu'elles sont combinées à la médiane) suggèrent une asymétrie correcte. Ensuite, les charnières (quartiles, brunes) suggèrent une asymétrie gauche lorsqu'elles sont combinées avec la médiane.

Comme nous le voyons, ils n'ont pas besoin d'être cohérents. Ce sur quoi vous vous concentreriez dépend de la situation dans laquelle vous vous trouvez (et éventuellement de vos préférences).

Cependant, un avertissement sur à quel point le boxplot est brut . L'exemple vers la fin ici - qui comprend une description de la façon de générer les données - donne quatre distributions assez différentes avec le même boxplot:

entrez la description de l'image ici

Comme vous pouvez le voir, il y a une distribution assez asymétrique avec tous les indicateurs susmentionnés d'asymétrie montrant une symétrie parfaite.

Prenons cela du point de vue "à quelle réponse votre professeur s'attendait-il, étant donné qu'il s'agit d'un boxplot, qui marque un point comme une valeur aberrante?".

Il nous reste à répondre d'abord "s'attendent-ils à ce que vous évaluiez l'asymétrie en excluant ce point, ou avec lui dans l'échantillon?". Certains l'excluraient et évaluaient l'asymétrie de ce qui restait, comme l'a fait jsk dans une autre réponse. Bien que j'aie contesté certains aspects de cette approche, je ne peux pas dire que ce soit faux - cela dépend de la situation. Certains l'incluraient (notamment parce que l'exclusion de 12,5% de votre échantillon en raison d'une règle dérivée de la normalité semble un grand pas *).

* Imaginez une distribution de la population qui est symétrique sauf pour la queue d'extrême droite (j'en ai construit une telle en répondant à cela - normale mais avec la queue d'extrême droite étant Pareto - mais je ne l'ai pas présentée dans ma réponse). Si je tire des échantillons de taille 8, souvent 7 des observations proviennent de la partie d'aspect normal et une vient de la queue supérieure. Si nous excluons les points marqués comme aberrants dans ce cas, nous excluons le point qui nous indique qu'il s'agit en fait d'un biais! Lorsque nous le faisons, la distribution tronquée qui reste dans cette situation est asymétrique à gauche, et notre conclusion serait l'opposé de la bonne.

Glen_b -Reinstate Monica
la source

@jsk Cela dépend de la façon dont vous souhaitez mesurer l'asymétrie. Étant donné que le degré d'asymétrie est en partie déterminé par les points éloignés (tendance à être plus éloignés d'une direction que d'une autre), leur suppression manque sans doute le point de mesure de l'asymétrie. Une discussion et une analyse plus détaillées sont dans mon article mis à jour. Si vous n'êtes pas convaincu, n'hésitez pas à être en désaccord, ces échanges sont souvent précieux.

Glen_b -Reinstate Monica

@Glen_b Bien que je respecte et comprenne certainement la position que vous adoptez, je pense qu'il y a un argument raisonnable à faire pour juger le biais après avoir supprimé la valeur aberrante plutôt qu'avant. Après la suppression de la valeur aberrante, la distribution sera même encore biaisée négativement après la suppression du 7e point (260). Avez-vous vérifié le qqplot et / ou comparé la moyenne et la médiane?

jsk

Peut-être que l'affaire est assez faible après avoir retiré le 7, mais je ne vois aucune raison de justifier de juger le biais après l'avoir retiré. Ce n'est pas une valeur aberrante, bien que l'idée soit bien prise que les mesures de l'inclinaison, quelle que soit la façon dont vous les regardez dans ce cas, sont motivées par des points uniques.

jsk

@Glen_ b Q3 + 1.5IQR est la règle de base typique enseignée à ce niveau pour identifier les valeurs aberrantes dans la queue supérieure. Que ce soit ou non pour les supprimer est une autre question. Êtes-vous en train de dire que la distribution est asymétrique, car la moyenne est plus grande? Pourquoi ignorer le fait que Q1 est plus éloigné de Q2 que Q3?

jsk

Je veux préciser ce qui se trouve près de la surface ici, mais pas tout à fait: souvent, les boîtes à moustaches se condensent trop, vous devrez peut-être également consulter toutes les données.

Nick Cox

Non, vous n'avez rien manqué: vous voyez en fait au-delà des résumés simplistes qui vous ont été présentés. Ces données sont à la fois positivement et négativement asymétriques (dans le sens de «asymétrie» suggérant une certaine forme d' asymétrie dans la distribution des données).

John Tukey a décrit un moyen systématique d'explorer l'asymétrie dans des lots de données au moyen de son «résumé de nombre N». Un boxplot est un graphique d'un résumé à 5 chiffres et se prête donc à cette analyse.

$M$ $H^{+}$ $H^{-}$ $X^{+}$ $X^{-}$ $T_i^{+}$ $i$ $T_i^{+}$ $T_i^{-}$ $M = M^{+}=M^{-}$ $(T_i^{+} + T_i^{-})/2$ $i$

Pour appliquer cette idée à un boxplot, il suffit de dessiner les points médians de chaque paire de parties correspondantes: la médiane (qui est déjà là), le point milieu des charnières (extrémités de la boîte, montrées en bleu), et le point milieu des extrêmes (montré en rouge).

Boxplot

Dans cet exemple, la valeur inférieure de la charnière centrale par rapport à la médiane indique que le milieu du lot est légèrement biaisé négativement (corroborant ainsi l'évaluation citée dans la question, tout en limitant convenablement sa portée au milieu du lot). ), tandis que la valeur (beaucoup) plus élevée de l'extrême moyen indique que les queues du lot (ou du moins ses extrêmes) sont positivement asymétriques (quoique, en y regardant de plus près, cela est dû à une seule valeur aberrante élevée). Bien qu'il s'agisse d'un exemple presque trivial, la richesse relative de cette interprétation par rapport à une seule statistique «d'asymétrie» révèle déjà le pouvoir descriptif de cette approche.

Avec un peu de pratique, vous n'avez pas à tirer ces statistiques moyennes: vous pouvez imaginer où elles sont et lire les informations d'asymétrie résultantes directement sur n'importe quel boxplot.

$M$ $H$ $E$ $D$ $X$ $i=1, 2, 3, 4, 5$ . Le graphique de gauche dans la figure suivante est le graphique de diagnostic pour les points médians de ces statistiques appariées. De la pente accélérée, il est clair que les données deviennent de plus en plus faussées positivement à mesure que nous tendons la main à leur queue.

Les graphiques du milieu et de droite montrent la même chose pour les racines carrées (des données, pas des statistiques de nombre moyen!) Et des logarithmes (base-10). La stabilité relative des valeurs des racines (notez la petite plage verticale relative et le niveau incliné au milieu) indique que ce lot de 219 valeurs devient approximativement symétrique à la fois dans ses parties centrales et dans toutes les parties de ses queues, presque à l'extérieur de les extrêmes lorsque les hauteurs sont ré-exprimées en racines carrées. Ce résultat constitue une base solide - presque convaincante - pour poursuivre l'analyse approfondie de ces hauteurs en termes de racines carrées.

Entre autres choses, ces graphiques révèlent quelque chose de quantitatif sur l'asymétrie des données: à l'échelle d'origine, ils révèlent immédiatement la asymétrie variable des données (jetant un doute considérable sur l'utilité d'utiliser une seule statistique pour caractériser son asymétrie), alors que sur l'échelle de la racine carrée, les données sont presque symétriques par rapport à leur milieu - et peuvent donc être résumées succinctement avec un résumé à cinq chiffres, ou de manière équivalente un boxplot. Le biais varie à nouveau sensiblement sur une échelle logarithmique, montrant que le logarithme est un moyen trop "fort" pour ré-exprimer ces données.

La généralisation d'une boîte à moustaches à des résumés à sept, neuf et plus de nombres est simple à tirer. Tukey les appelle des «intrigues schématiques». Aujourd'hui, de nombreuses parcelles ont un objectif similaire, y compris des standbys comme les parcelles QQ et des nouveautés relatives telles que les «parcelles de haricots» et les «parcelles de violon». (Même l'histogramme modeste peut être mis en service à cette fin.) En utilisant les points de ces graphiques, on peut évaluer l'asymétrie de manière détaillée et effectuer une évaluation similaire des moyens de ré-exprimer les données.

whuber
la source

La moyenne étant inférieure ou supérieure à la médiane est un raccourci qui fonctionne souvent pour déterminer la direction de l'inclinaison tant qu'il n'y a pas de valeurs aberrantes. Dans ce cas, la distribution est biaisée négativement mais la moyenne est supérieure à la médiane en raison de la valeur aberrante.

jsk
la source

Cela explique. Les livres que j'ai lus ne le mentionnent pas du tout!

JerryW

Espérons que les livres mentionnent au moins à quel point la moyenne est beaucoup moins résistante aux valeurs aberrantes que la médiane!

jsk

Le fait que cela compte comme asymétrique dépend de la façon dont vous mesurez l'asymétrie.

Glen_b -Reinstate Monica

C'est suffisant. C'est un petit ensemble de données qui rend particulièrement difficile de juger de l'asymétrie. Je suppose que cet exemple a malheureusement été

ajouté

Je suis d'accord que de petits ensembles de données comme celui-ci peuvent le rendre difficile, mais il est parfaitement possible de construire des distributions continues qui sont tout aussi difficiles.

Glen_b -Reinstate Monica