Pour un ensemble de données donné, l'écart est souvent calculé soit comme l'écart type, soit comme l'IQR (intervalle inter-quartile).
Alors que a standard deviation
est normalisé (z-scores, etc.) et peut donc être utilisé pour comparer la propagation de deux populations différentes, ce n'est pas le cas avec l'IQR car les échantillons de deux populations différentes peuvent avoir des valeurs à deux échelles assez différentes,
e.g.
Pop A: 100, 67, 89, 75, 120, ...
Pop B: 19, 22, 43, 8, 12, ...
Ce que je recherche, c'est une mesure robuste (non paramétrique) que je peux utiliser pour comparer la variation au sein de différentes populations.
Choix 1:
IQR / Median
- ce serait par analogie avec le coefficient de variation , c'est-à-dire avec .
Choix 2:
Range / IQR
Question: Quelle est la mesure la plus significative pour comparer la variation entre les populations? Et s'il s'agit du choix 1, le choix 2 est-il utile pour quelque chose / significatif, ou s'agit-il d'une mesure fondamentalement erronée?
la source
Réponses:
La question implique que l' écart type (ET) est en quelque sorte normalisé et peut donc être utilisé pour comparer la variabilité de deux populations différentes. Mais non. Comme l'ont dit Peter et John, cette normalisation se fait comme lors du calcul du coefficient de variation (CV), qui est égal à SD / Mean. Le SD est dans les mêmes unités que les données d'origine. En revanche, le CV est un rapport sans unité.
Votre choix 1 (IQR / médiane) est analogue au CV. Comme le CV, cela n'aurait de sens que lorsque les données sont des données de rapport. Cela signifie que zéro est vraiment nul. Un poids de zéro n'est pas un poids. Une longueur de zéro n'est pas une longueur. À titre de contre-exemple, cela n'aurait aucun sens pour la température en C ou F, car une température de zéro degré (C ou F) ne signifie pas qu'il n'y a pas de température. Le simple fait de basculer entre l'utilisation de l'échelle C ou F vous donnerait une valeur différente pour le CV ou pour le rapport IQR / médiane, ce qui rend ces deux rapports dénués de sens.
Je suis d'accord avec Peter et John que votre deuxième idée (Range / IQR) ne serait pas très robuste aux valeurs aberrantes, donc ne serait probablement pas utile.
la source
z-scores
normalisation des valeurs et de normalisation de leur position dans une distribution en termes de moyenne et d'écart-type, avec ce problème, qui consiste à pouvoir classer des groupes de produits par ordre de variabilité. Choisir votre réponse comme étant la bonne parce que si Peter et John étaient tous les deux très utiles, la vôtre m'a alerté de la confusion conceptuelle. Bon point sur le choix 1 étant d'utilisation limitée près de la médiane 0. Heureusement, dans mon problème, je n'ai pas à m'en soucier.Il est important de réaliser que le minimum et le maximum ne sont souvent pas de très bonnes statistiques à utiliser (c'est-à-dire qu'ils peuvent varier considérablement d'un échantillon à l'autre et ne suivent pas une distribution normale car, par exemple, la moyenne pourrait être due au théorème de la limite centrale) . Par conséquent, la plage est rarement un bon choix pour autre chose que d'indiquer la plage de cet échantillon exact . Pour qu'une statistique simple et non paramétrique représente la variabilité, la plage inter-quartile est bien meilleure. Cependant, même si je vois l'analogie entre IQR / médiane et le coefficient de variation, je ne pense pas que ce soit probablement la meilleure option.
Vous voudrez peut-être examiner l' écart médian absolu par rapport à la médiane ( MADM ). C'est-à-dire: Je soupçonne qu'une meilleure analogie non paramétrique avec le coefficient de variation serait MADM / médiane, plutôt que IQR / médiane.
la source
MADM/median
, essentiellement la différence moyenne par rapport à la valeur moyenne. Appelons ce choix 3. D'accord avec votre évaluation du choix 1, donc c'est fini, merci. Lorsque vous suggérez «mieux», quels attributs peut-on utiliser pour comparer le choix 2 au choix 3 pour voir lequel est le meilleur?MADM/median
essayer à côtéIQR/median
. La comparaison côte à côte peut être intéressante. (+1 pour la suggestion intéressante)"Choix 1" est ce que vous voulez si vous utilisez des paramètres non paramétriques dans le but commun de réduire l'effet des valeurs aberrantes. Même si vous l'utilisez en raison d'un biais qui a également pour effet secondaire d'avoir généralement des valeurs extrêmes dans la queue, cela peut être aberrant. Votre «choix 2» pourrait être considérablement affecté par des valeurs aberrantes ou des valeurs extrêmes alors que les composants de votre première équation sont relativement robustes contre eux.
[Cela dépendra un peu du type d'IQR que vous sélectionnez (voir l'aide de R sur le quantile).]
la source
quartile( )
, puis je prendsIQR := Q3 - Q1
. Mes chiffres proviennent d'une série chronologique de mesures hebdomadaires sur une année. Les mesures sont des mesures de performances industrielles et proviennent donc d'une distribution continue. Les différentes populations sont des groupes de produits différents. Dans cette situation, je ne pense pas que les différentes définitions seraient très différentes dans la pratique?Je préfère ne pas calculer de mesures comme CV car j'ai presque toujours une origine arbitraire pour la variable aléatoire. Concernant le choix d'une mesure de dispersion robuste, il est difficile de battre la différence moyenne de Gini, qui est la moyenne de toutes les valeurs absolues possibles des différences entre deux observations. Pour un calcul efficace, voir par exemple la fonction
rms
package R.GiniMd
Sous la normalité, la différence moyenne de Gini est de 0,98 aussi efficace que le SD pour estimer la dispersion.la source
Comme @John, je n'ai jamais entendu parler de cette définition du coefficient de variation. Je n'appellerais pas cela si je l'utilisais, cela embrouillerait les gens.
"Quel est le plus utile?" dépendra de l'utilisation que vous souhaitez en faire. Le choix 1 est certainement plus robuste aux valeurs aberrantes, si vous êtes sûr que c'est ce que vous voulez. Mais quel est le but de comparer les deux distributions? Qu'essayez-vous de faire?
Une alternative consiste à normaliser les deux mesures, puis à examiner les résumés.
Un autre est un tracé QQ.
Il y en a bien d'autres également.
la source
Cet article présente deux bonnes alternatives robustes pour le coefficient de variation. L'un est l' intervalle interquartile divisé par la médiane, c'est-à-dire:
IQR / médiane = (Q3-Q1) / médiane
L'autre est l' écart absolu médian divisé par la médiane, c'est-à-dire:
MAD / médiane
Ils les comparent et concluent généralement que la seconde est un peu moins variable et probablement meilleure pour la plupart des applications.
la source