Je travaille sur des données très asymétriques, donc j'utilise la médiane au lieu de la moyenne pour résumer la tendance centrale. J'aimerais avoir une mesure de la dispersion Bien que je vois souvent des gens rapporter l' écart type moyen± ± ou les quartiles médians pour résumer la tendance centrale, est-il acceptable de rapporter la dispersion médiane médiane MAD absolue ? Y a-t-il des problèmes potentiels avec cette approche?
Je trouverais cette approche plus compacte et intuitive que de rapporter les quartiles inférieur et supérieur, en particulier dans les grands tableaux remplis de figures.
Réponses:
Je ne pense pas que la médiane folle soit appropriée en général.±
Vous pouvez facilement créer des distributions où 50% des données sont légèrement inférieures à la médiane, et 50% des données sont réparties beaucoup plus que la médiane - par exemple (4.9,4.9.4.9,4.9,5,1000000,1000000,100000 , 1000000). La notation 5 0.10 semble suggérer qu'il y a une certaine masse autour (médiane + fou ~ = 5.10), et ce n'est tout simplement pas toujours le cas, et vous n'avez aucune idée qu'il y a une grande masse au-dessus de 1000000.±
Les quartiles / quantiles donnent une bien meilleure idée de la distribution au prix d'un nombre supplémentaire - (4.9,5.0,1000000.0). Je doute que ce soit entièrement une coïncidence que l'asymétrie est le troisième moment et que je semble avoir besoin de trois nombres / dimensions pour visualiser intuitivement une distribution asymétrique.
Cela dit, il n'y a rien de mal en soi - je ne fais que discuter des intuitions et de la lisibilité ici. Si vous l'utilisez pour vous ou votre équipe, devenez fou. Mais je pense que cela dérouterait un large public.
la source
Utiliser le MAD revient à supposer que la distribution sous-jacente est symétrique (les écarts supérieurs à la médiane et inférieurs à la médiane sont considérés de manière égale). Si vos données sont biaisées, c'est clairement faux: cela vous conduira à surestimer la véritable variabilité de vos données.
Heureusement, vous pouvez choisir l'une des nombreuses alternatives aux fous qui sont tout aussi robustes, presque aussi faciles à calculer et qui ne supposent pas de symétrie.
Jetez un œil à Rousseeuw et Croux 1992 . Ces concepts sont bien expliqués ici et mis en œuvre ici . Ces deux estimateurs sont membres de la soi-disant classe de statistiques U, pour laquelle il existe une théorie bien développée.
la source
"Dans cet article, un indice d'asymétrie plus précis est étudié. Plus précisément, l'utilisation de la variance gauche et droite est proposée et un indice d'asymétrie basé sur eux est introduit. Plusieurs exemples démontrent son utilité. La question d'une évaluation plus précise de la dispersion des données sur la moyenne émergent dans toutes les distributions de probabilités non symétriques. Lorsque la distribution de la population n'est pas symétrique, la moyenne et la variance (ou l'écart-type) d'un ensemble de données ne donnent pas une idée précise de la distribution des données, en particulier la forme et la symétrie. On fait valoir que la moyenne, la variance gauche proposée (ou l'écart type gauche) et la variance droite (ou l'écart type droit) décrivent l'ensemble des données avec plus de précision. "
Lien
la source