Comment savoir si ma distribution de données est symétrique?

23

Je sais que si la médiane et la moyenne sont approximativement égales, cela signifie qu'il y a une distribution symétrique, mais dans ce cas particulier, je ne suis pas certain. La moyenne et la médiane sont assez proches (seulement une différence de 0,487 m / gallon), ce qui m'amènerait à dire qu'il y a une distribution symétrique mais en regardant le boxplot, il semble qu'il soit légèrement biaisé positivement (la médiane est plus proche du T1 que du Q3 comme confirmé) par les valeurs).

(J'utilise Minitab si vous avez des conseils spécifiques pour ce logiciel.)

user72943
la source
Commentaire orthogonal sur un détail: quelles unités sont m / gall? Cela ressemble à des mètres par gallon, et je suis intrigué.
Nick Cox
C'est une sérieuse limitation ici que les parcelles ne montrent généralement pas de moyens du tout!
Nick Cox
Qu'est-ce que l'écart-type de vos données? Si la valeur de 0,487 m / gallon est bien inférieure à votre écart-type, vous avez probablement des raisons de croire que votre distribution peut être symétrique. Si cette valeur est beaucoup plus grande que votre écart-type (ou MAD ou toute autre mesure d'écart que vous regardez), un examen plus approfondi de la symétrie de la distribution est probablement une perte de temps.
usεr11852 dit Réintégrer Monic le
1
-70,-63,-56,-49,-42,-35,-28,-21,-14,-7,0,1,4,9,16,25,36,49,64,81,100 est délibérément non symétrique (uniforme dans la moitié inférieure mais pas dans la moitié supérieure) et une boîte à moustaches placerait la médiane (égale à la moyenne) plus près du quartile supérieur que du quartile inférieur mais aussi plus près du minimum que du maximum.
Henry
@NickCox ça pourrait aussi être milligal avec une faute de frappe. Ce serait presque 500 gal! Ou moins de g. (Bien sûr, comme indiqué ci-dessus, sans une échelle de dispersion telle que MAD, aucun moyen de savoir ce qui pourrait être "significatif".)10 - 4μdix-4
GeoMatt22

Réponses:

29

Sans doute, on vous a dit le contraire, mais la moyenne médiane n'implique pas la symétrie.=

Il existe une mesure d'asymétrie basée sur la moyenne moins la médiane (la deuxième asymétrie de Pearson), mais elle peut être 0 lorsque la distribution n'est pas symétrique (comme n'importe quelle mesure d'asymétrie commune).

De même, la relation entre la moyenne et la médiane n'implique pas nécessairement une relation similaire entre le midhinge ( ) et la médiane. Ils peuvent suggérer une asymétrie opposée, ou l'un peut être égal à la médiane tandis que l'autre ne le fait pas.(Q1+Q3)/2

Une façon d'étudier la symétrie consiste à utiliser un tracé de symétrie *.

Si sont les observations ordonnées du plus petit au plus grand (les statistiques de l'ordre), et est la médiane, alors un diagramme de symétrie trace vs , vs , ... et ainsi de suite. M Y ( n ) - M M - Y ( 1 ) Y ( n - 1 ) - M M - Y ( 2 )Oui(1),Oui(2),...,Oui(n)MOui(n)-MM-Oui(1)Oui(n-1)-MM-Oui(2)

* Minitab peut le faire . En effet, je soulève ce complot comme une possibilité parce que je les ai vu faire dans Minitab.

Voici quatre exemples:

Tracés de symétrie
Tracés de symétrie du type ci-dessus pour des échantillons de quatre distributions

(Les distributions réelles étaient (de gauche à droite, rangée du haut en premier) - Laplace, Gamma (forme = 0,8), beta (2,2) et beta (5,2). Le code est celui de Ross Ihaka, d' ici )

Avec des exemples symétriques à queue lourde, il arrive souvent que les points les plus extrêmes puissent être très loin de la ligne; vous feriez moins attention à la distance de la ligne d'un ou deux points lorsque vous vous approchez du coin supérieur droit de la figure.

Il y a bien sûr d'autres tracés (j'ai mentionné le tracé de symétrie non pas à partir d'un sens particulier du plaidoyer de celui-ci, mais parce que je savais qu'il était déjà implémenté dans Minitab). Explorons donc quelques autres.

Voici les skewplots correspondants que Nick Cox a suggérés dans les commentaires:

Tracés d'asymétrie
Graphes d'asymétrie suggérés par Nick Cox dans les commentaires

Dans ces graphiques, une tendance à la hausse indiquerait une queue droite généralement plus lourde que la gauche et une tendance à la baisse indiquerait une queue gauche généralement plus lourde que la droite, tandis que la symétrie serait suggérée par un graphique relativement plat (quoique peut-être assez bruyant).

Nick suggère que cette intrigue est meilleure (spécifiquement "plus directe"). Je suis enclin à accepter; l'interprétation du graphique semble par conséquent un peu plus facile, bien que les informations dans les graphiques correspondants soient souvent assez similaires (après avoir soustrait la pente unitaire dans le premier ensemble, vous obtenez quelque chose de très similaire au deuxième ensemble).

[Bien sûr, aucune de ces choses ne nous dira que la distribution à partir de laquelle les données ont été tirées est en fait symétrique; nous obtenons une indication de la proximité de symétrie de l'échantillon et, dans cette mesure, nous pouvons juger si les données sont raisonnablement cohérentes avec le fait d'être tirées d'une population quasi symétrique.]

Glen_b -Reinstate Monica
la source
3
@ user72943 Si vous en êtes totalement satisfait, n'oubliez pas de revenir et de sélectionner la réponse de Glen_b. Vous voudrez peut-être attendre un peu pour voir si quelqu'un soumet une meilleure réponse, mais Glen_b recevra plus de crédit si vous acceptez la réponse.
Wayne
3
+1, mais une chipie. Je trouve un tracé de (quantile supérieur quantile inférieur) / 2 versus (quantile supérieur quantile inférieur) plus direct que le tracé de symétrie ici. Pour un quantile, lisez la statistique d'ordre si vous le souhaitez. La situation de référence est une distribution symétrique dans laquelle les moyennes des quantiles appariés sont toutes égales à la médiane, de sorte qu'une distribution symétrique trace une ligne droite. Une asymétrie légère et marquée est à la fois facile à repérer, tout comme (par exemple) une symétrie approximative au milieu et des exceptions marquées dans une ou les deux queues. -+-
Nick Cox
6
(Oui(n+1-je)+Oui(je))/2jen/2,n/4,n/8, etc). À certains égards, ce graphique est meilleur que les graphiques de symétrie dans la mesure où il filtre un excès de détails et aide le spectateur à se concentrer sur la façon dont la symétrie (ou son absence) change à mesure que l'on se déplace vers la queue. Il a l'avantage supplémentaire d'être immédiatement et facilement calculable une fois qu'un résumé de n lettres est en main, qui à son tour peut être lu directement à partir d'un tracé de tige et de feuille.
whuber
1
@whuber et moi parlons de la même idée sous-jacente. La différence est entre le traçage de toutes les statistiques d'ordre apparié (pas très distrayant en pratique) ou le traçage de quelques-unes seulement.
Nick Cox
1
Références dans stata-journal.com/sjpdf.html?articlenum=gr0003 et pour les utilisateurs de Stata dans la documentation de skewplot(SSC). L'idée remonte au moins à une suggestion attribuée à JW Tukey dans Wilk, MB et Gnanadesikan, R. 1968. Méthodes de traçage des probabilités pour l'analyse des données. Biometrika 55: 1-17.
Nick Cox
6

Le plus simple est de calculer l' asymétrie de l'échantillon . Il y a une fonction dans Minitab pour cela. Les distributions symétriques auront une asymétrie nulle. L'asymétrie zéro ne signifie pas nécessairement symétrique, mais dans la plupart des cas pratiques, ce serait le cas.

Comme l'a noté @NickCox, il existe plusieurs définitions de l'asymétrie. J'utilise celui qui est compatible avec Excel , mais vous pouvez en utiliser n'importe quel autre.

Aksakal
la source
2
Je pense que cela doit être précisé. En particulier, il n'y a rien de tel que "l'asymétrie". Il existe de nombreuses mesures et même les plus rares sont souvent aussi utiles ou intéressantes que les mesures courantes (par exemple les moments L). Ceux qui sont tentés de considérer le troisième moment standardisé comme la mesure (et c'est aussi ma valeur par défaut) doivent noter que pour Karl Pearson, et pour de nombreux autres auteurs bien au XXe siècle, l'asymétrie était le plus souvent mesurée par rapport au mode.
Nick Cox
Tout coefficient d'asymétrie, en plus de manquer de puissance pour détecter les asymétries (comme vous le remarquez correctement), souffre également d'être (extrêmement) non robuste, car il est basé sur le troisième moment de l'échantillon. De plus, comme la symétrie peut être violée de nombreuses façons (et intéressantes), une seule caractérisation numérique de la symétrie est un mauvais substitut aux diagnostics graphiques plus riches décrits dans la littérature sur l'analyse des données exploratoires.
whuber
1

Centrez vos données autour de zéro en soustrayant la moyenne de l'échantillon. Maintenant, divisez vos données en deux parties, la négative et la positive. Prenez la valeur absolue des points de données négatifs. Faites maintenant un test de Kolmogorov-Smirnov à deux échantillons en comparant les deux partitions l'une à l'autre. Faites votre conclusion sur la base de la valeur de p.

Soakley
la source
0

Mettez vos observations triées en valeurs croissantes dans une colonne, puis mettez-les triées en valeurs décroissantes dans une autre colonne.
Calculez ensuite le coefficient de corrélation (appelez-le Rm) entre ces deux colonnes.
Calculez l'indice chiral: CHI = (1 + Rm) / 2.
CHI prend des valeurs dans l'intervalle [0..1].
CHI est nul SI et UNIQUEMENT SI votre échantillon est distribué symétriquement.
Pas besoin du troisième moment.
Théorie:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(la plupart des articles cités dans ces deux pages sont téléchargeables en pdf)
J'espère aide, même récemment.

Petitjean
la source
La corrélation, Rm, ne serait-elle pas nécessairement négative? Je ne vois pas comment CHI pourrait être 1 à moins que Rm ne soit 1, mais puisque col1 est trié croissant et col2 est trié décroissant, RM <= 0, ce qui signifie que CHI prendrait des valeurs dans [0, 0,5]. Suis-je en train de manquer quelque chose?
gung - Rétablir Monica
Oui Rm ne peut pas être positif et CHI ne peut pas dépasser 1/2 pour les distributions de variables aléatoires prenant des valeurs sur la ligne réelle. En fait, la borne supérieure 1 provient de la théorie générale introduisant l'indice chiral. Cela a du sens pour les distributions de variables aléatoires prenant des valeurs dans un espace plus général. Cette théorie sort du cadre de la présente discussion, mais elle est présentée dans les deux pages Web que j'ai mentionnées précédemment.
Petitjean
Veuillez enregistrer et / ou fusionner vos comptes (vous pouvez trouver des informations sur la façon de procéder dans la section Mon compte de notre centre d'aide ), vous pourrez alors modifier et commenter votre propre question.
gung - Réintégrer Monica