Comment interpréter le coefficient de variation?

33

J'essaie de comprendre le coefficient de variation . Lorsque j'essaie de l'appliquer aux deux échantillons de données suivants, je n'arrive pas à comprendre comment interpréter les résultats.

Disons que l'échantillon 1 est et l'échantillon 2 est . Ici échantillon 2 échantillon 1 comme vous pouvez le voir. ${0, 5, 7, 12, 11, 17}$ ${10 ,15 ,17 ,22 ,21 ,27}$ $=$ $+\ 10$

Les deux ont le même écart-type mais et . $\sigma_{2} = \sigma_{1}= 5.95539$ $\mu_{2}=18.67$ $\mu_{1}=8.66667$

Maintenant, le coefficient de variation sera différent. Pour l'échantillon 2, ce sera moins que pour l'échantillon 1. Mais comment interpréter ce résultat? En termes de variance, les deux sont identiques; seuls leurs moyens sont différents. Alors, à quoi sert le coefficient de variation ici? Cela m'induit en erreur ou je ne suis peut-être pas en mesure d'interpréter les résultats. ${\sigma}/{\mu}$

descriptive-statistics coefficient-of-variation Durin
la source

Si au lieu d'ajouter 10, vous ajoutez 1000, le deuxième ensemble de nombres différera beaucoup moins, par rapport à la moyenne, que le premier ensemble. Le coefficient de variation en est une expression.

Très proche: stats.stackexchange.com/questions/113437/… .

whuber

42

Dans des exemples comme le vôtre lorsque les données diffèrent simplement de manière additive, c'est-à-dire que nous ajoutons une constante à tout, alors que vous signalez que l'écart-type est inchangé, la moyenne est modifiée exactement par cette constante, et donc le coefficient de variation change de to , ce qui n'est ni intéressant ni utile. $k$ $\sigma / \mu$ $\sigma / (\mu + k)$

C'est le changement multiplicatif qui est intéressant et où le coefficient de variation a une certaine utilité. Car tout multiplier par une constante implique que le coefficient de variation devient , c'est-à-dire qu'il reste le même qu'auparavant. Le changement d'unités de mesure en est un exemple, comme dans les réponses de @Aksalal et @Macond. $k$ $k \sigma/k \mu$

Comme le coefficient de variation est sans unité, il en est de même sans dimension, car toutes les unités ou dimensions possédées par la variable sous-jacente sont éliminées par la division. Cela fait du coefficient de variation une mesure de la variabilité relative , de sorte que la variabilité relative des longueurs peut être comparée à celle des poids, etc. Un domaine où le coefficient de variation a trouvé une utilisation descriptive est la morphométrie de la taille des organismes en biologie.

En principe et dans la pratique, le coefficient de variation n'est défini complètement et pas du tout utile pour les variables entièrement positives. Par conséquent, en détail, votre premier échantillon avec une valeur de n'est pas un exemple approprié. Une autre façon de voir cela est de noter que si la moyenne était toujours nulle, le coefficient serait indéterminé et si la moyenne était toujours négative, le coefficient serait négatif, en supposant dans ce dernier cas que l'écart-type est positif. Dans les deux cas, la mesure deviendrait inutile en tant que mesure de la variabilité relative, voire à toute autre fin. $0$

Une déclaration équivalente est que le coefficient de variation n'est intéressant et utile que si les logarithmes sont définis de la manière habituelle pour toutes les valeurs, et en effet, l'utilisation de coefficients de variation équivaut à examiner la variabilité des logarithmes.

Bien que cela puisse sembler incroyable aux lecteurs ici, j'ai vu des publications climatologiques et géographiques dans lesquelles les coefficients de variation des températures en degrés Celsius ont intrigué les scientifiques naïfs qui notent que les coefficients peuvent exploser lorsque les températures moyennes approchent de C et deviennent négatives pour températures moyennes inférieures à zéro. Encore plus bizarrement, j'ai vu des suggestions que le problème est résolu en utilisant Fahrenheit à la place. Inversement, le coefficient de variation est souvent mentionné correctement comme une mesure récapitulative définie si et seulement si les échelles de mesure sont qualifiées d'échelle de rapport. En l'occurrence, le coefficient de variation n'est pas particulièrement utile même pour des températures mesurées en degrés kelvin, mais pour des raisons physiques plutôt que mathématiques ou statistiques. $0^\circ$

Comme dans le cas des exemples bizarres de climatologie, que je laisse sans référence car les auteurs ne méritent ni le crédit ni la honte, le coefficient de variation a été sur-utilisé dans certains domaines. Il y a parfois une tendance à le considérer comme une sorte de mesure récapitulative magique qui résume à la fois l'écart moyen et l'écart type. Il s'agit d'une pensée naturellement primitive, car même lorsque le rapport est logique, la moyenne et l'écart-type ne peuvent pas être récupérés.

En statistique, le coefficient de variation est un paramètre assez naturel si la variation suit le gamma ou la log-normale, comme on peut le voir en examinant la forme du coefficient de variation pour ces distributions.

Bien que le coefficient de variation puisse être d'une certaine utilité, dans les cas où il s'applique, l'étape la plus utile consiste à travailler à l'échelle logarithmique, soit par transformation logarithmique, soit en utilisant une fonction de lien logarithmique dans un modèle linéaire généralisé.

EDIT: Si toutes les valeurs sont négatives, alors nous pouvons considérer le signe comme juste une convention qui peut être ignorée. De manière équivalente dans ce cas,est en fait un jumeau identique de coefficient de variation. $\sigma / |\mu|$

Nick Cox
la source

3

+1 Ce message comprend les points clés sur les logarithmes et la positivité qui devraient faire partie de toute discussion sur la question. Les «histoires de guerre» en font également une bonne lecture.

whuber

Je pensais que vous ne pouviez pas calculer le CV si une variable est = 0?

1

@Jerf: Réfléchissez bien. Si toutes les valeurs sont 0, alors il n'y a pas de variation et rien à calculer. Il n'y a pas de problème simplement parce que certaines valeurs individuelles sont 0, car cela n'exclut pas en soi que la moyenne soit 0. Pourtant, vous pouvez toujours trouver des exemples où certaines valeurs ne sont pas nulles mais la moyenne est 0, par exemple -1, 0, 1 dans auquel cas le CV est indéterminé. Mais en pratique, le CV est plus utile lorsque toutes les valeurs sont positives.

Nick Cox

13

Imaginez que je dis "Il y a 1 625 330 personnes dans cette ville. Plus ou moins cinq." Vous seriez impressionné par mes connaissances démographiques précises.

Mais si je dis "Il y a cinq personnes dans cette maison. Plus ou moins cinq." On pourrait penser que je n'ai aucune idée du nombre de personnes dans la maison.

Même écart-type, CV très différents.

Bart
la source

1

C'est une façon raisonnable d'expliquer ce qu'est le CoV, mais il n'est pas clair à quel point il est pertinent pour la question du PO.

gung - Réintègre Monica

OP demande: "En termes de variance, les deux sont les mêmes; seuls leurs moyens sont différents. Alors, à quoi sert le coefficient de variation ici?" Je pense que mon exemple illustre l'utilisation du CV comme moyen d'interpréter la variance.

Bart

1

Je ne t'ai pas déçu. Les 2 questions explicites du PO sont: "comment interpréter ce résultat?", & "Quelle est l'utilité du coefficient de variation ici?". Votre explication est bonne, mais comprendre ce qu'est le CoV n'est que la première étape pour répondre à ces questions, pas la totalité de la réponse à ces questions.

gung - Rétablir Monica

4

Normalement, vous utilisez un coefficient de variation pour une variable de différentes unités de mesure ou des échelles très différentes. Vous pouvez le considérer comme un rapport bruit / signal. Par exemple, vous voudrez peut-être comparer la variabilité du poids et de la taille des élèves; variabilité du PIB des USA et de Monaco.

Dans votre cas, le coefficient de variation peut ne pas avoir beaucoup de sens, car les valeurs ne sont pas très différentes.

Aksakal
la source

2

L'échantillon avec des valeurs plus élevées a moins de variation par rapport à sa moyenne, comme le suggère la définition ( ). C'est en fait assez simple. Le coefficient de variation est utile pour comparer la variation entre échantillons (ou populations) de différentes échelles. Considérez que vous avez affaire à des salaires entre pays. La comparaison de la variation des salaires aux États-Unis et au Japon est moins informative si vous utilisez la variance au lieu du coefficient de variation comme statistique, car 1 USD ~ = 100 JPY et une différence de 1 unité de salaire ne signifie pas la même chose dans les deux échantillons. Eh bien, dans cet exemple, vous pouvez tout convertir en USD, puis faire les calculs, mais il n'est pas toujours évident de savoir comment convertir entre différentes échelles. Par exemple, lorsque l'on compare la variation du poids corporel de différentes espèces. $s / \bar{x}$

Macond
la source

2

En réalité, les deux statistiques peuvent être trompeuses si vous ne connaissez pas ou ne comprenez pas votre hypothèse et votre expérience. Prenons cet exemple horrible ... Marcher à travers deux immeubles de grande hauteur sur une corde raide au lieu de marcher sur une planche. Disons que la corde raide a un diamètre de 1 pouce, tandis que la planche mesure 12 pouces de large. On a demandé à 5 personnes de marcher sur la corde et à 5 personnes de marcher sur la planche. Nous avons trouvé les résultats suivants:

La distance moyenne de chaque marche du bord (ou côté) de la corde (pouces): 0,5, 0,2, 0,3, 0,6, 0,1

La distance moyenne de chaque marche du bord (ou côté) de la planche (pouces): 5,5, 5,2, 5,3, 5,6, 5,1

Tout comme dans votre exemple, cet exemple entraînera des écarts-types égaux car les valeurs de la planche sont simplement une différence de +5 par rapport à celles de la corde raide. Cependant, si je vous disais que l'écart type pour chaque expérience était de 0,2074, vous pourriez bien dire que les deux expériences étaient équivalentes. Cependant, si je vous disais que le CV de l'expérience de corde raide était de près de 61% contre moins de 4% pour la planche, vous pourriez être enclin à me demander combien de personnes sont tombées de la corde.

user62371
la source

0

Le CV est une variabilité relative qui est utilisée pour comparer la variabilité de différents ensembles de données d'échantillon. Pour un exemple vous, le même écart-type / variance avec une moyenne plus petite générera un CV plus petit. cela indique qu'un plus petit ensemble de données CV a une variabilité relative plus petite. Supposons que vous gagnez 10000 par mois et que j'en gagne 100. (moyenne différente) nous perdons probablement tous 100 par mois (vriation), je serai beaucoup plus blessé que vous car j'obtiens un CV plus grand (cv = 1 par rapport au vôtre 0,01), par rapport une plus grande variation.

Sun Ke
la source

1

Je dois dire que cela n'ajoute rien aux réponses existantes.

Nick Cox

0

dans ce cas, cv n'est pas le bon outil statistique pour expliquer le résultat.

selon la nature de la recherche effectuée d'où l'objectif, le chercheur a une hypothèse ou un point à prouver. Il ou elle doit concevoir, exécuter l'expérience et analyser les données à l'aide du meilleur outil statistique approprié, c'est-à-dire si l'expérience doit comparer la croissance du groupe 1 et du groupe 2, bien que le cv des deux soit le même, mais en utilisant le test T ou le T- apparié test ou Anova (plus grande expérience), il pourrait facilement prouver la différence entre les deux groupes.

La clé ici est d'appliquer l'outil statistique approprié pour donner une explication significative sur le résultat. N'oubliez pas que cv n'est qu'un des choix de la statistique descriptive.

mes 2 cents

lokmal
la source

Comment interpréter le coefficient de variation?

Réponses: