Une mesure robuste (non paramétrique) comme le coefficient de variation - IQR / médiane, ou alternative?

12

Pour un ensemble de données donné, l'écart est souvent calculé soit comme l'écart type, soit comme l'IQR (intervalle inter-quartile).

Alors que a standard deviationest normalisé (z-scores, etc.) et peut donc être utilisé pour comparer la propagation de deux populations différentes, ce n'est pas le cas avec l'IQR car les échantillons de deux populations différentes peuvent avoir des valeurs à deux échelles assez différentes,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

Ce que je recherche, c'est une mesure robuste (non paramétrique) que je peux utiliser pour comparer la variation au sein de différentes populations.

Choix 1: IQR / Median- ce serait par analogie avec le coefficient de variation , c'est-à-dire avec .σμ

Choix 2: Range / IQR

Question: Quelle est la mesure la plus significative pour comparer la variation entre les populations? Et s'il s'agit du choix 1, le choix 2 est-il utile pour quelque chose / significatif, ou s'agit-il d'une mesure fondamentalement erronée?

Assad Ebrahim
la source
Merci pour la discussion très utile. Quelques suivis utiles - différentes définitions des quartiles et donc de l'IQR (John), de l'écart type qui n'est pas en fait standardisant (Harvey) et des graphiques QQ comme outil pour comparer deux distributions (Peter). (+1 aux trois réponses!)
Assad Ebrahim

Réponses:

13

La question implique que l' écart type (ET) est en quelque sorte normalisé et peut donc être utilisé pour comparer la variabilité de deux populations différentes. Mais non. Comme l'ont dit Peter et John, cette normalisation se fait comme lors du calcul du coefficient de variation (CV), qui est égal à SD / Mean. Le SD est dans les mêmes unités que les données d'origine. En revanche, le CV est un rapport sans unité.

Votre choix 1 (IQR / médiane) est analogue au CV. Comme le CV, cela n'aurait de sens que lorsque les données sont des données de rapport. Cela signifie que zéro est vraiment nul. Un poids de zéro n'est pas un poids. Une longueur de zéro n'est pas une longueur. À titre de contre-exemple, cela n'aurait aucun sens pour la température en C ou F, car une température de zéro degré (C ou F) ne signifie pas qu'il n'y a pas de température. Le simple fait de basculer entre l'utilisation de l'échelle C ou F vous donnerait une valeur différente pour le CV ou pour le rapport IQR / médiane, ce qui rend ces deux rapports dénués de sens.

Je suis d'accord avec Peter et John que votre deuxième idée (Range / IQR) ne serait pas très robuste aux valeurs aberrantes, donc ne serait probablement pas utile.

Harvey Motulsky
la source
2
Harvey - merci - vous avez raison, SD n'est pas du tout normalisé ... Je confondais le concept de z-scoresnormalisation des valeurs et de normalisation de leur position dans une distribution en termes de moyenne et d'écart-type, avec ce problème, qui consiste à pouvoir classer des groupes de produits par ordre de variabilité. Choisir votre réponse comme étant la bonne parce que si Peter et John étaient tous les deux très utiles, la vôtre m'a alerté de la confusion conceptuelle. Bon point sur le choix 1 étant d'utilisation limitée près de la médiane 0. Heureusement, dans mon problème, je n'ai pas à m'en soucier.
Assad Ebrahim
Je voudrais l'utiliser dans un document. Y a-t-il un bon endroit auquel il est référencé (livre / quelque part évalué par les pairs)?
Ben Bolker
15

Il est important de réaliser que le minimum et le maximum ne sont souvent pas de très bonnes statistiques à utiliser (c'est-à-dire qu'ils peuvent varier considérablement d'un échantillon à l'autre et ne suivent pas une distribution normale car, par exemple, la moyenne pourrait être due au théorème de la limite centrale) . Par conséquent, la plage est rarement un bon choix pour autre chose que d'indiquer la plage de cet échantillon exact . Pour qu'une statistique simple et non paramétrique représente la variabilité, la plage inter-quartile est bien meilleure. Cependant, même si je vois l'analogie entre IQR / médiane et le coefficient de variation, je ne pense pas que ce soit probablement la meilleure option.

Vous voudrez peut-être examiner l' écart médian absolu par rapport à la médiane ( MADM ). C'est-à-dire: Je soupçonne qu'une meilleure analogie non paramétrique avec le coefficient de variation serait MADM / médiane, plutôt que IQR / médiane.

MADM=median(|ximedian(x)|)
gung - Réintégrer Monica
la source
1
Choix intéressant de MADM/median, essentiellement la différence moyenne par rapport à la valeur moyenne. Appelons ce choix 3. D'accord avec votre évaluation du choix 1, donc c'est fini, merci. Lorsque vous suggérez «mieux», quels attributs peut-on utiliser pour comparer le choix 2 au choix 3 pour voir lequel est le meilleur?
Assad Ebrahim
1
Les attributs que vous utiliseriez dépendraient de vos objectifs pour la métrique. Cependant, je voulais seulement dire que c'est une meilleure analogie pour le CoV. NB: le 3e quartile est la médiane de vos données qui sont au-dessus de la médiane, et le 1er q est la médiane de celles ci-dessous, donc IQR / 2 à long terme sera égal à MADM (nb, ils ne sont pas garantis d'être égaux dans un échantillon donné). L'IQR variera davantage, en moyenne, par rapport à sa vraie valeur dans la pop, mais je ne sais pas quelles implications, le cas échéant, cela aurait, et le stand. se tromper. d'IQR / 2 doit être identique à SE de MADM.
gung - Rétablir Monica
Je vois, merci pour la clarification. Bon point sur l'interprétation médiane de Q3 et Q1. Je vais MADM/medianessayer à côté IQR/median. La comparaison côte à côte peut être intéressante. (+1 pour la suggestion intéressante)
Assad Ebrahim
6

"Choix 1" est ce que vous voulez si vous utilisez des paramètres non paramétriques dans le but commun de réduire l'effet des valeurs aberrantes. Même si vous l'utilisez en raison d'un biais qui a également pour effet secondaire d'avoir généralement des valeurs extrêmes dans la queue, cela peut être aberrant. Votre «choix 2» pourrait être considérablement affecté par des valeurs aberrantes ou des valeurs extrêmes alors que les composants de votre première équation sont relativement robustes contre eux.

[Cela dépendra un peu du type d'IQR que vous sélectionnez (voir l'aide de R sur le quantile).]

John
la source
Tu as raison, j'aurais dû dire "c'est analogue à la définition du coefficient de variation ... (fixé maintenant dans la question)!
Assad Ebrahim
Merci pour le commentaire qui dépend du type d'IQR que vous sélectionnez ... - Je n'avais pas réalisé qu'il y avait tellement de définitions possibles pour les quartiles / quantiles! J'utilise la fonction intégrée d'Excel quartile( ), puis je prends IQR := Q3 - Q1. Mes chiffres proviennent d'une série chronologique de mesures hebdomadaires sur une année. Les mesures sont des mesures de performances industrielles et proviennent donc d'une distribution continue. Les différentes populations sont des groupes de produits différents. Dans cette situation, je ne pense pas que les différentes définitions seraient très différentes dans la pratique?
Assad Ebrahim
6

Je préfère ne pas calculer de mesures comme CV car j'ai presque toujours une origine arbitraire pour la variable aléatoire. Concernant le choix d'une mesure de dispersion robuste, il est difficile de battre la différence moyenne de Gini, qui est la moyenne de toutes les valeurs absolues possibles des différences entre deux observations. Pour un calcul efficace, voir par exemple la fonction rmspackage R. GiniMdSous la normalité, la différence moyenne de Gini est de 0,98 aussi efficace que le SD pour estimer la dispersion.

Frank Harrell
la source
3

Comme @John, je n'ai jamais entendu parler de cette définition du coefficient de variation. Je n'appellerais pas cela si je l'utilisais, cela embrouillerait les gens.

"Quel est le plus utile?" dépendra de l'utilisation que vous souhaitez en faire. Le choix 1 est certainement plus robuste aux valeurs aberrantes, si vous êtes sûr que c'est ce que vous voulez. Mais quel est le but de comparer les deux distributions? Qu'essayez-vous de faire?

Une alternative consiste à normaliser les deux mesures, puis à examiner les résumés.

Un autre est un tracé QQ.

Il y en a bien d'autres également.

Peter Flom - Réintégrer Monica
la source
Bon point - aurait dû dire analogue au coefficient de variation (j'ai fait la correction).
Assad Ebrahim
Mes chiffres proviennent d'une série chronologique de mesures hebdomadaires sur une année. Les mesures sont des mesures de performances industrielles et proviennent donc d'une distribution continue. Les différentes populations sont des groupes de produits différents et j'ai environ 50 groupes de produits. Ce que j'essaie de faire, c'est de pouvoir comparer la variabilité inhérente entre les différents groupes de produits. En particulier, je veux pouvoir classer les groupes de produits par ordre décroissant de variabilité.
Assad Ebrahim
Que voulez-vous dire par «normaliser les deux mesures et ensuite examiner les résumés»? Je pensais que Choice 1 les standardisait ...!
Assad Ebrahim
2

Cet article présente deux bonnes alternatives robustes pour le coefficient de variation. L'un est l' intervalle interquartile divisé par la médiane, c'est-à-dire:

IQR / médiane = (Q3-Q1) / médiane

L'autre est l' écart absolu médian divisé par la médiane, c'est-à-dire:

MAD / médiane

Ils les comparent et concluent généralement que la seconde est un peu moins variable et probablement meilleure pour la plupart des applications.

Armando
la source