J'essaie de comprendre le coefficient de variation . Lorsque j'essaie de l'appliquer aux deux échantillons de données suivants, je n'arrive pas à comprendre comment interpréter les résultats.
Disons que l'échantillon 1 est et l'échantillon 2 est . Ici échantillon 2 échantillon 1 comme vous pouvez le voir.10 , 15 , 17 , 22 , 21 , 27 = + 10
Les deux ont le même écart-type mais et .μ 2 = 18,67 μ 1 = 8,66667
Maintenant, le coefficient de variation sera différent. Pour l'échantillon 2, ce sera moins que pour l'échantillon 1. Mais comment interpréter ce résultat? En termes de variance, les deux sont identiques; seuls leurs moyens sont différents. Alors, à quoi sert le coefficient de variation ici? Cela m'induit en erreur ou je ne suis peut-être pas en mesure d'interpréter les résultats.
Réponses:
Dans des exemples comme le vôtre lorsque les données diffèrent simplement de manière additive, c'est-à-dire que nous ajoutons une constante à tout, alors que vous signalez que l'écart-type est inchangé, la moyenne est modifiée exactement par cette constante, et donc le coefficient de variation change de to , ce qui n'est ni intéressant ni utile.σ / μ σ / ( μ + k )k σ/ μ σ/ (μ+k)
C'est le changement multiplicatif qui est intéressant et où le coefficient de variation a une certaine utilité. Car tout multiplier par une constante implique que le coefficient de variation devient , c'est-à-dire qu'il reste le même qu'auparavant. Le changement d'unités de mesure en est un exemple, comme dans les réponses de @Aksalal et @Macond.k σ / k μk k σ/ kμ
Comme le coefficient de variation est sans unité, il en est de même sans dimension, car toutes les unités ou dimensions possédées par la variable sous-jacente sont éliminées par la division. Cela fait du coefficient de variation une mesure de la variabilité relative , de sorte que la variabilité relative des longueurs peut être comparée à celle des poids, etc. Un domaine où le coefficient de variation a trouvé une utilisation descriptive est la morphométrie de la taille des organismes en biologie.
En principe et dans la pratique, le coefficient de variation n'est défini complètement et pas du tout utile pour les variables entièrement positives. Par conséquent, en détail, votre premier échantillon avec une valeur de n'est pas un exemple approprié. Une autre façon de voir cela est de noter que si la moyenne était toujours nulle, le coefficient serait indéterminé et si la moyenne était toujours négative, le coefficient serait négatif, en supposant dans ce dernier cas que l'écart-type est positif. Dans les deux cas, la mesure deviendrait inutile en tant que mesure de la variabilité relative, voire à toute autre fin.0
Une déclaration équivalente est que le coefficient de variation n'est intéressant et utile que si les logarithmes sont définis de la manière habituelle pour toutes les valeurs, et en effet, l'utilisation de coefficients de variation équivaut à examiner la variabilité des logarithmes.
Bien que cela puisse sembler incroyable aux lecteurs ici, j'ai vu des publications climatologiques et géographiques dans lesquelles les coefficients de variation des températures en degrés Celsius ont intrigué les scientifiques naïfs qui notent que les coefficients peuvent exploser lorsque les températures moyennes approchent de C et deviennent négatives pour températures moyennes inférieures à zéro. Encore plus bizarrement, j'ai vu des suggestions que le problème est résolu en utilisant Fahrenheit à la place. Inversement, le coefficient de variation est souvent mentionné correctement comme une mesure récapitulative définie si et seulement si les échelles de mesure sont qualifiées d'échelle de rapport. En l'occurrence, le coefficient de variation n'est pas particulièrement utile même pour des températures mesurées en degrés kelvin, mais pour des raisons physiques plutôt que mathématiques ou statistiques.0∘
Comme dans le cas des exemples bizarres de climatologie, que je laisse sans référence car les auteurs ne méritent ni le crédit ni la honte, le coefficient de variation a été sur-utilisé dans certains domaines. Il y a parfois une tendance à le considérer comme une sorte de mesure récapitulative magique qui résume à la fois l'écart moyen et l'écart type. Il s'agit d'une pensée naturellement primitive, car même lorsque le rapport est logique, la moyenne et l'écart-type ne peuvent pas être récupérés.
En statistique, le coefficient de variation est un paramètre assez naturel si la variation suit le gamma ou la log-normale, comme on peut le voir en examinant la forme du coefficient de variation pour ces distributions.
Bien que le coefficient de variation puisse être d'une certaine utilité, dans les cas où il s'applique, l'étape la plus utile consiste à travailler à l'échelle logarithmique, soit par transformation logarithmique, soit en utilisant une fonction de lien logarithmique dans un modèle linéaire généralisé.
EDIT: Si toutes les valeurs sont négatives, alors nous pouvons considérer le signe comme juste une convention qui peut être ignorée. De manière équivalente dans ce cas,est en fait un jumeau identique de coefficient de variation.σ/ | μ |
la source
Imaginez que je dis "Il y a 1 625 330 personnes dans cette ville. Plus ou moins cinq." Vous seriez impressionné par mes connaissances démographiques précises.
Mais si je dis "Il y a cinq personnes dans cette maison. Plus ou moins cinq." On pourrait penser que je n'ai aucune idée du nombre de personnes dans la maison.
Même écart-type, CV très différents.
la source
Normalement, vous utilisez un coefficient de variation pour une variable de différentes unités de mesure ou des échelles très différentes. Vous pouvez le considérer comme un rapport bruit / signal. Par exemple, vous voudrez peut-être comparer la variabilité du poids et de la taille des élèves; variabilité du PIB des USA et de Monaco.
Dans votre cas, le coefficient de variation peut ne pas avoir beaucoup de sens, car les valeurs ne sont pas très différentes.
la source
L'échantillon avec des valeurs plus élevées a moins de variation par rapport à sa moyenne, comme le suggère la définition ( ). C'est en fait assez simple. Le coefficient de variation est utile pour comparer la variation entre échantillons (ou populations) de différentes échelles. Considérez que vous avez affaire à des salaires entre pays. La comparaison de la variation des salaires aux États-Unis et au Japon est moins informative si vous utilisez la variance au lieu du coefficient de variation comme statistique, car 1 USD ~ = 100 JPY et une différence de 1 unité de salaire ne signifie pas la même chose dans les deux échantillons. Eh bien, dans cet exemple, vous pouvez tout convertir en USD, puis faire les calculs, mais il n'est pas toujours évident de savoir comment convertir entre différentes échelles. Par exemple, lorsque l'on compare la variation du poids corporel de différentes espèces.s/x¯
la source
En réalité, les deux statistiques peuvent être trompeuses si vous ne connaissez pas ou ne comprenez pas votre hypothèse et votre expérience. Prenons cet exemple horrible ... Marcher à travers deux immeubles de grande hauteur sur une corde raide au lieu de marcher sur une planche. Disons que la corde raide a un diamètre de 1 pouce, tandis que la planche mesure 12 pouces de large. On a demandé à 5 personnes de marcher sur la corde et à 5 personnes de marcher sur la planche. Nous avons trouvé les résultats suivants:
La distance moyenne de chaque marche du bord (ou côté) de la corde (pouces): 0,5, 0,2, 0,3, 0,6, 0,1
La distance moyenne de chaque marche du bord (ou côté) de la planche (pouces): 5,5, 5,2, 5,3, 5,6, 5,1
Tout comme dans votre exemple, cet exemple entraînera des écarts-types égaux car les valeurs de la planche sont simplement une différence de +5 par rapport à celles de la corde raide. Cependant, si je vous disais que l'écart type pour chaque expérience était de 0,2074, vous pourriez bien dire que les deux expériences étaient équivalentes. Cependant, si je vous disais que le CV de l'expérience de corde raide était de près de 61% contre moins de 4% pour la planche, vous pourriez être enclin à me demander combien de personnes sont tombées de la corde.
la source
Le CV est une variabilité relative qui est utilisée pour comparer la variabilité de différents ensembles de données d'échantillon. Pour un exemple vous, le même écart-type / variance avec une moyenne plus petite générera un CV plus petit. cela indique qu'un plus petit ensemble de données CV a une variabilité relative plus petite. Supposons que vous gagnez 10000 par mois et que j'en gagne 100. (moyenne différente) nous perdons probablement tous 100 par mois (vriation), je serai beaucoup plus blessé que vous car j'obtiens un CV plus grand (cv = 1 par rapport au vôtre 0,01), par rapport une plus grande variation.
la source
dans ce cas, cv n'est pas le bon outil statistique pour expliquer le résultat.
selon la nature de la recherche effectuée d'où l'objectif, le chercheur a une hypothèse ou un point à prouver. Il ou elle doit concevoir, exécuter l'expérience et analyser les données à l'aide du meilleur outil statistique approprié, c'est-à-dire si l'expérience doit comparer la croissance du groupe 1 et du groupe 2, bien que le cv des deux soit le même, mais en utilisant le test T ou le T- apparié test ou Anova (plus grande expérience), il pourrait facilement prouver la différence entre les deux groupes.
La clé ici est d'appliquer l'outil statistique approprié pour donner une explication significative sur le résultat. N'oubliez pas que cv n'est qu'un des choix de la statistique descriptive.
mes 2 cents
la source