Moyenne SD ou médiane MAD pour résumer une variable fortement asymétrique?

11

Je travaille sur des données très asymétriques, donc j'utilise la médiane au lieu de la moyenne pour résumer la tendance centrale. J'aimerais avoir une mesure de la dispersion Bien que je vois souvent des gens rapporter l' écart type moyen±± ± ou les quartiles médians± pour résumer la tendance centrale, est-il acceptable de rapporter la dispersion médiane médiane MAD absolue± ? Y a-t-il des problèmes potentiels avec cette approche?

Je trouverais cette approche plus compacte et intuitive que de rapporter les quartiles inférieur et supérieur, en particulier dans les grands tableaux remplis de figures.

Mulone
la source
3
Je pense que les quartiles médian, inférieur et supérieur décriraient conjointement les données mieux. Vous pouvez trouver d'autres statistiques descriptives ici .
1
Je veux être aussi concis que possible: la médiane + 2 quartiles est-elle correcte?
Mulone
4
MAD est une statistique fine pour exprimer la dispersion d'un lot de données - il est même plus résistant aux valeurs aberrantes que la plage interquartile. Mais vous voudrez peut-être réfléchir à ce que la médiane MAD signifierait vraiment et comment votre public devrait l'interpréter. Il ne possède pas les mêmes propriétés asymptotiques ou de type inégalité de Chebeyshev que la moyenne SD. C'est peut-être la raison pour laquelle de telles expressions sont rarement, voire jamais, utilisées. ±±±
whuber
1
J'ai toujours pensé que MAD représentait la déviation absolue moyenne de l'analogue à mse qui est une erreur quadratique moyenne. c'est la moyenne des écarts absolus par rapport à la moyenne et non à la médiane. Ai-je raison ou vais-je devenir fou?
Michael R. Chernick
2
l'image est de mille mots, si possible montrant l'histogramme est très puissant.
bdeonovic

Réponses:

7

Je ne pense pas que la médiane folle soit appropriée en général. ±

Vous pouvez facilement créer des distributions où 50% des données sont légèrement inférieures à la médiane, et 50% des données sont réparties beaucoup plus que la médiane - par exemple (4.9,4.9.4.9,4.9,5,1000000,1000000,100000 , 1000000). La notation 5 0.10 semble suggérer qu'il y a une certaine masse autour (médiane + fou ~ = 5.10), et ce n'est tout simplement pas toujours le cas, et vous n'avez aucune idée qu'il y a une grande masse au-dessus de 1000000.±

Les quartiles / quantiles donnent une bien meilleure idée de la distribution au prix d'un nombre supplémentaire - (4.9,5.0,1000000.0). Je doute que ce soit entièrement une coïncidence que l'asymétrie est le troisième moment et que je semble avoir besoin de trois nombres / dimensions pour visualiser intuitivement une distribution asymétrique.

Cela dit, il n'y a rien de mal en soi - je ne fais que discuter des intuitions et de la lisibilité ici. Si vous l'utilisez pour vous ou votre équipe, devenez fou. Mais je pense que cela dérouterait un large public.

Patrick Caldon
la source
2
(+1) Je voudrais ajouter que la définition de l'asymétrie en termes de troisième moment n'est pas la plus acceptée de nos jours car elle ne peut être appliquée que sur des distributions à queue légère. Des définitions plus modernes de l'asymétrie sont basées sur des quantiles, certaines d'entre elles peuvent être trouvées ici .
1
@amoeba Est-ce? La page Wikipédia de MAD le définit comme Médiane (| Xi - Médiane (X) |), qui est de 0,1 avec les données fournies.
Upper_Case
@Upper_Case Merci. J'avais tort (oublié 5-5 = 0 terme). Je vais supprimer mon commentaire ci-dessus pour ne pas dérouter les futurs lecteurs!
amibe dit Réintégrer Monica
4

Utiliser le MAD revient à supposer que la distribution sous-jacente est symétrique (les écarts supérieurs à la médiane et inférieurs à la médiane sont considérés de manière égale). Si vos données sont biaisées, c'est clairement faux: cela vous conduira à surestimer la véritable variabilité de vos données.

Heureusement, vous pouvez choisir l'une des nombreuses alternatives aux fous qui sont tout aussi robustes, presque aussi faciles à calculer et qui ne supposent pas de symétrie.

Jetez un œil à Rousseeuw et Croux 1992 . Ces concepts sont bien expliqués ici et mis en œuvre ici . Ces deux estimateurs sont membres de la soi-disant classe de statistiques U, pour laquelle il existe une théorie bien développée.

user603
la source
1

"Dans cet article, un indice d'asymétrie plus précis est étudié. Plus précisément, l'utilisation de la variance gauche et droite est proposée et un indice d'asymétrie basé sur eux est introduit. Plusieurs exemples démontrent son utilité. La question d'une évaluation plus précise de la dispersion des données sur la moyenne émergent dans toutes les distributions de probabilités non symétriques. Lorsque la distribution de la population n'est pas symétrique, la moyenne et la variance (ou l'écart-type) d'un ensemble de données ne donnent pas une idée précise de la distribution des données, en particulier la forme et la symétrie. On fait valoir que la moyenne, la variance gauche proposée (ou l'écart type gauche) et la variance droite (ou l'écart type droit) décrivent l'ensemble des données avec plus de précision. "

Lien

deepML
la source
3
Vous avez cité l'abrégé d'un article et fourni quelque chose qui ressemble à une URL (j'ai pris la liberté de fixer le lien). Ce n'est pas vraiment le type de réponses que nous recherchons ici; Je vous encourage à modifier votre réponse et à essayer d'ajouter vos propres commentaires sur la raison pour laquelle ce lien aide à répondre à la question. La réponse serait bien meilleure si vous expliquiez comment cet indice d'asymétrie est lié à la tendance centrale moyenne et à MAD.
MånsT