Une mesure de l'asymétrie est basée sur la médiane moyenne - le deuxième coefficient d'asymétrie de Pearson .
Une autre mesure de l'asymétrie est basée sur les différences relatives de quartile (Q3-Q2) vs (Q2-Q1) exprimées sous forme de ratio
Lorsque (Q3-Q2) vs (Q2-Q1) est plutôt exprimé sous la forme d'une différence (ou médiane médiane équivalente), cela doit être mis à l'échelle pour le rendre sans dimension (comme cela est généralement nécessaire pour une mesure d'asymétrie), par exemple par l'IQR, comme ici (en mettant ).u = 0,25
La mesure la plus courante est bien sûr l’ asymétrie au troisième moment .
Il n'y a aucune raison que ces trois mesures soient nécessairement cohérentes. Chacun d'entre eux pourrait être différent des deux autres.
Ce que nous considérons comme une «asymétrie» est un concept quelque peu glissant et mal défini. Voir ici pour plus de discussion.
Si nous regardons vos données avec un qqplot normal:
[La ligne marquée là-bas est basée uniquement sur les 6 premiers points, parce que je veux discuter de l'écart des deux derniers par rapport au modèle.]
On voit que les 6 plus petits points se situent presque parfaitement sur la ligne.
Ensuite, le 7ème point est en dessous de la ligne (plus proche du milieu que le deuxième point correspondant depuis l'extrémité gauche), tandis que le huitième point se situe bien au-dessus.
Le 7ème point suggère un léger biais gauche, le dernier, un biais droit plus fort. Si vous ignorez l'un ou l'autre point, l'impression d'asymétrie est entièrement déterminée par l'autre.
Si je devais dire que c'était l'un ou l'autre, j'appellerais cela un "biais correct" mais je soulignerais également que l'impression était entièrement due à l'effet de ce très gros point. Sans cela, il n'y a vraiment rien à dire que c'est juste. (D'un autre côté, sans le 7ème point à la place, ce n'est clairement pas de gauche.)
Nous devons être très prudents lorsque notre impression est entièrement déterminée par des points uniques et peut être inversée en supprimant un point. Ce n'est pas une bonne base pour continuer!
Je pars du principe que ce qui fait une valeur aberrante est le modèle (ce qui est une valeur aberrante par rapport à un modèle peut être tout à fait typique sous un autre modèle).
Je pense qu'une observation au 0,01 centile supérieur (1/10000) d'une normale (3,72 sds au-dessus de la moyenne) est tout aussi aberrante pour le modèle normal qu'une observation au 0,01 centile supérieur d'une distribution exponentielle l'est pour le modèle exponentiel. (Si nous transformons une distribution par sa propre transformée intégrale de probabilité, chacune ira au même uniforme)
Pour voir le problème de l'application de la règle du boxplot à une distribution asymétrique même modérément droite, simulez de grands échantillons à partir d'une distribution exponentielle.
Par exemple, si nous simulons des échantillons de taille 100 à partir d'une normale, nous faisons en moyenne moins d'une valeur aberrante par échantillon. Si nous le faisons avec une exponentielle, nous faisons en moyenne environ 5. Mais il n'y a pas de base réelle pour dire qu'une proportion plus élevée de valeurs exponentielles sont "éloignées" à moins que nous ne le fassions par comparaison avec (disons) un modèle normal. Dans des situations particulières, nous pourrions avoir des raisons spécifiques d'avoir une règle aberrante d'une forme particulière, mais il n'y a pas de règle générale, ce qui nous laisse avec des principes généraux comme celui avec lequel j'ai commencé dans cette sous-section - pour traiter chaque modèle / distribution sur ses propres lumières (si une valeur n'est pas inhabituelle par rapport à un modèle, pourquoi l'appeler une valeur aberrante dans cette situation?)
Pour passer à la question dans le titre :
Bien que ce soit un instrument assez grossier (c'est pourquoi j'ai regardé l'intrigue QQ), il y a plusieurs indications d'asymétrie dans un boxplot - s'il y a au moins un point marqué comme aberrant, il y en a potentiellement (au moins) trois:
Dans cet échantillon (n = 100), les points extérieurs (verts) marquent les extrêmes et avec la médiane suggèrent une asymétrie gauche. Ensuite, les clôtures (bleues) suggèrent (lorsqu'elles sont combinées à la médiane) suggèrent une asymétrie correcte. Ensuite, les charnières (quartiles, brunes) suggèrent une asymétrie gauche lorsqu'elles sont combinées avec la médiane.
Comme nous le voyons, ils n'ont pas besoin d'être cohérents. Ce sur quoi vous vous concentreriez dépend de la situation dans laquelle vous vous trouvez (et éventuellement de vos préférences).
Cependant, un avertissement sur à quel point le boxplot est brut . L'exemple vers la fin ici - qui comprend une description de la façon de générer les données - donne quatre distributions assez différentes avec le même boxplot:
Comme vous pouvez le voir, il y a une distribution assez asymétrique avec tous les indicateurs susmentionnés d'asymétrie montrant une symétrie parfaite.
-
Prenons cela du point de vue "à quelle réponse votre professeur s'attendait-il, étant donné qu'il s'agit d'un boxplot, qui marque un point comme une valeur aberrante?".
Il nous reste à répondre d'abord "s'attendent-ils à ce que vous évaluiez l'asymétrie en excluant ce point, ou avec lui dans l'échantillon?". Certains l'excluraient et évaluaient l'asymétrie de ce qui restait, comme l'a fait jsk dans une autre réponse. Bien que j'aie contesté certains aspects de cette approche, je ne peux pas dire que ce soit faux - cela dépend de la situation. Certains l'incluraient (notamment parce que l'exclusion de 12,5% de votre échantillon en raison d'une règle dérivée de la normalité semble un grand pas *).
* Imaginez une distribution de la population qui est symétrique sauf pour la queue d'extrême droite (j'en ai construit une telle en répondant à cela - normale mais avec la queue d'extrême droite étant Pareto - mais je ne l'ai pas présentée dans ma réponse). Si je tire des échantillons de taille 8, souvent 7 des observations proviennent de la partie d'aspect normal et une vient de la queue supérieure. Si nous excluons les points marqués comme aberrants dans ce cas, nous excluons le point qui nous indique qu'il s'agit en fait d'un biais! Lorsque nous le faisons, la distribution tronquée qui reste dans cette situation est asymétrique à gauche, et notre conclusion serait l'opposé de la bonne.
Non, vous n'avez rien manqué: vous voyez en fait au-delà des résumés simplistes qui vous ont été présentés. Ces données sont à la fois positivement et négativement asymétriques (dans le sens de «asymétrie» suggérant une certaine forme d' asymétrie dans la distribution des données).
John Tukey a décrit un moyen systématique d'explorer l'asymétrie dans des lots de données au moyen de son «résumé de nombre N». Un boxplot est un graphique d'un résumé à 5 chiffres et se prête donc à cette analyse.
Pour appliquer cette idée à un boxplot, il suffit de dessiner les points médians de chaque paire de parties correspondantes: la médiane (qui est déjà là), le point milieu des charnières (extrémités de la boîte, montrées en bleu), et le point milieu des extrêmes (montré en rouge).
Dans cet exemple, la valeur inférieure de la charnière centrale par rapport à la médiane indique que le milieu du lot est légèrement biaisé négativement (corroborant ainsi l'évaluation citée dans la question, tout en limitant convenablement sa portée au milieu du lot). ), tandis que la valeur (beaucoup) plus élevée de l'extrême moyen indique que les queues du lot (ou du moins ses extrêmes) sont positivement asymétriques (quoique, en y regardant de plus près, cela est dû à une seule valeur aberrante élevée). Bien qu'il s'agisse d'un exemple presque trivial, la richesse relative de cette interprétation par rapport à une seule statistique «d'asymétrie» révèle déjà le pouvoir descriptif de cette approche.
Avec un peu de pratique, vous n'avez pas à tirer ces statistiques moyennes: vous pouvez imaginer où elles sont et lire les informations d'asymétrie résultantes directement sur n'importe quel boxplot.
Les graphiques du milieu et de droite montrent la même chose pour les racines carrées (des données, pas des statistiques de nombre moyen!) Et des logarithmes (base-10). La stabilité relative des valeurs des racines (notez la petite plage verticale relative et le niveau incliné au milieu) indique que ce lot de 219 valeurs devient approximativement symétrique à la fois dans ses parties centrales et dans toutes les parties de ses queues, presque à l'extérieur de les extrêmes lorsque les hauteurs sont ré-exprimées en racines carrées. Ce résultat constitue une base solide - presque convaincante - pour poursuivre l'analyse approfondie de ces hauteurs en termes de racines carrées.
Entre autres choses, ces graphiques révèlent quelque chose de quantitatif sur l'asymétrie des données: à l'échelle d'origine, ils révèlent immédiatement la asymétrie variable des données (jetant un doute considérable sur l'utilité d'utiliser une seule statistique pour caractériser son asymétrie), alors que sur l'échelle de la racine carrée, les données sont presque symétriques par rapport à leur milieu - et peuvent donc être résumées succinctement avec un résumé à cinq chiffres, ou de manière équivalente un boxplot. Le biais varie à nouveau sensiblement sur une échelle logarithmique, montrant que le logarithme est un moyen trop "fort" pour ré-exprimer ces données.
La généralisation d'une boîte à moustaches à des résumés à sept, neuf et plus de nombres est simple à tirer. Tukey les appelle des «intrigues schématiques». Aujourd'hui, de nombreuses parcelles ont un objectif similaire, y compris des standbys comme les parcelles QQ et des nouveautés relatives telles que les «parcelles de haricots» et les «parcelles de violon». (Même l'histogramme modeste peut être mis en service à cette fin.) En utilisant les points de ces graphiques, on peut évaluer l'asymétrie de manière détaillée et effectuer une évaluation similaire des moyens de ré-exprimer les données.
la source
La moyenne étant inférieure ou supérieure à la médiane est un raccourci qui fonctionne souvent pour déterminer la direction de l'inclinaison tant qu'il n'y a pas de valeurs aberrantes. Dans ce cas, la distribution est biaisée négativement mais la moyenne est supérieure à la médiane en raison de la valeur aberrante.
la source