Le problème des covariances est qu’elles sont difficiles à comparer: lorsque vous calculez la covariance d’un ensemble de hauteurs et de poids, exprimée en mètres et en kilogrammes (respectivement), vous obtenez une covariance différente de celle utilisée dans d’autres unités ( ce qui pose déjà un problème aux personnes qui font la même chose avec ou sans le système métrique!), mais il sera également difficile de dire si (p. ex.) la taille et le poids sont plus «covary» que, disons, la longueur de vos orteils et de vos doigts , simplement parce que la «échelle» sur laquelle la covariance est calculée est différente.
La solution consiste à «normaliser» la covariance: vous divisez la covariance par quelque chose qui représente la diversité et l’échelle dans les deux covariables et vous obtenez une valeur assurée comprise entre -1 et 1: la corrélation. Quelle que soit l'unité dans laquelle se trouvaient vos variables d'origine, vous obtiendrez toujours le même résultat, ce qui vous permettra également de comparer, dans une certaine mesure, si deux variables "corrèlent" plus de deux autres, simplement en comparant leur corrélation.
Remarque: ce qui précède suppose que le lecteur comprend déjà le concept de covariance.
cm
et votre Y ests
, alors votre . Et vous pouvez ensuite multiplier par le résultat par le facteur de conversion d'unité. Essayez dans R:cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
Les exigences de ce type de questions me paraissent un peu bizarres. Voici un concept / une formule mathématique , mais je souhaite en parler dans un contexte totalement dépourvu de symboles mathématiques. Je pense aussi qu'il faudrait préciser que l'algèbre nécessaire à la compréhension des formules devrait être enseignée à la plupart des gens avant l'enseignement supérieur (aucune compréhension de l'algèbre matricielle n'est nécessaire, une simple algèbre suffit).
Donc, au début, au lieu d’ignorer complètement la formule et d’en parler dans des analogies magiques et heuristiques, examinons simplement la formule et essayons d’expliquer les composants individuels par petites étapes. La différence en termes de covariance et de corrélation, lorsque l’on regarde les formules, devrait devenir claire. Alors que parler en termes d'analogies et d'heuristiques, je soupçonne, rendrait obsolètes deux concepts relativement simples et leurs différences dans de nombreuses situations.
Commençons donc par une formule pour l' échantillon de covariance (celles que je viens de prendre et que j'ai adoptées de wikipedia);
Pour que tout le monde soit au courant, définissons explicitement tous les éléments et toutes les opérations de la formule.
À ce stade, je pourrais présenter un exemple simple, pour mettre un visage sur les éléments et les opérations pour ainsi dire. Ainsi, par exemple, créons simplement un tableau, où chaque ligne correspond à une observation (et où et sont étiquetés de manière appropriée). On pourrait probablement rendre ces exemples plus spécifiques (par exemple, représente l’âge et poids), mais cela n’a aucune importance pour notre discussion.x y x y
À ce stade, si vous estimez que l'opération de somme de la formule n'a pas été entièrement comprise, vous pouvez l'introduire à nouveau dans un contexte beaucoup plus simple. Disons simplement que est la même chose que dans cet exemple;∑ni=1(xi)
Maintenant, ce gâchis devrait être corrigé et nous pourrons entrer dans la deuxième partie de la formule, . Maintenant, en supposant que les gens sachent déjà ce que signifient les moyennes, et , et je dirais, étant hypocrites de mes propres commentaires plus tôt dans le post, on peut simplement parler de la moyenne en termes de heuristiques simples (par exemple le milieu de la distribution). On peut alors prendre ce processus, une opération à la fois. L'instruction(xi−x¯)(yi−y¯) x¯ y¯ (xi−x¯) examine uniquement les écarts / distance entre chaque observation et la moyenne de toutes les observations pour cet attribut particulier. Par conséquent, lorsqu'une observation est plus éloignée de la moyenne, cette opération aura une valeur plus élevée. On peut alors se référer à l'exemple de table donné et simplement démontrer l'opération sur le vecteur d'observations .x
L'opération est la même pour le vecteur , mais vous pouvez également présenter cette opération pour le renforcement.y
Maintenant, les termes et ne devraient pas être ambigus, et nous pouvons passer à l'opération suivante, en multipliant ces résultats ensemble, . Comme le souligne gung dans les commentaires, on parle souvent de produit croisé (peut-être un exemple utile à rappeler si on introduisait une algèbre matricielle de base pour les statistiques).(xi−x¯) (yi−y¯) (xi−x¯)⋅(yi−y¯)
Prenez note de ce qui se passe lors de la multiplication, si deux observations sont toutes deux très éloignées de la moyenne, l'observation résultante aura une valeur positive encore plus grande (la même chose est vraie si les deux observations se situent à une grande distance au-dessous de la moyenne, c'est-à-dire multiplier deux négatifs. est égal à positif). Notez également que si une observation est supérieure à la moyenne et l'autre, bien inférieure à la moyenne, la valeur résultante sera grande (en termes absolus) et négative (car une fois positive, une négative équivaut à un nombre négatif). Enfin, notez que lorsqu'une valeur est très proche de la moyenne pour l'une ou l'autre observation, la multiplication des deux valeurs donnera un petit nombre. Encore une fois, nous pouvons simplement présenter cette opération dans un tableau.
Maintenant, s’il y a des statisticiens dans la salle, ils devraient être bouillants d’anticipation à ce stade. Nous pouvons voir tous les éléments distincts de ce qu'est une covariance et de la façon dont elle est calculée entrent en jeu. Il ne reste plus qu’à résumer le résultat final dans le tableau précédent, diviser par et le tour est joué , la covariance ne doit plus être mystique (toutes ne définissant qu’un seul symbole grec).n−1
À ce stade, vous voudrez peut-être préciser d'où vient le chiffre 5, mais cela devrait être aussi simple que de renvoyer au tableau et de compter le nombre d'observations (laissez à nouveau la différence entre l'échantillon et la population à un autre moment).
Maintenant, la covariance en elle-même ne nous dit pas grand-chose (elle le peut, mais il est inutile à ce stade d’entrer dans des exemples intéressants sans recourir à des références magiques et non définies au public). Dans un bon scénario, vous n'aurez pas besoin de vraiment expliquer pourquoi nous devrions nous intéresser à la covariance. Dans d'autres circonstances, vous devrez simplement espérer que votre auditoire est captif et tiendra votre promesse. Mais, continuant à développer la différence entre la covariance et la corrélation, nous pouvons simplement renvoyer à la formule de corrélation. Pour éviter la phobie des symboles grecs, dites peut-être simplement que est le symbole commun utilisé pour représenter la corrélation.ρ
Encore une fois, pour répéter, le numérateur dans la formule précédente est simplement la covariance telle que nous venons de la définir, et le dénominateur est la racine carrée du produit de la variance de chaque série. Si vous devez définir la variance elle-même, vous pouvez simplement dire que la variance est la même chose que la covariance d'une série avec elle-même (c'est-à-dire ). Et tous les concepts que vous avez introduits avec la covariance s'appliquent (c.-à-d. Si une série a beaucoup de valeurs très éloignées de sa moyenne, elle aura une variance élevée). Notez peut-être ici qu’une série ne peut pas avoir une variance négative (ce qui devrait logiquement découler des calculs présentés précédemment).Cov(x,x)=Var(x)
Donc, les seuls nouveaux composants que nous avons introduits sont au dénominateur, . Nous divisons donc la covariance que nous venons de calculer par le produit des variances de chaque série. On pourrait expliquer pourquoi la division par donnera toujours une valeur comprise entre -1 et 1, mais je soupçonne que l’inégalité de Cauchy – Schwarz devrait être laissée de côté de l’ordre du jour. cette discussion. Encore une fois, je suis un hypocrite et je recourt à certains, croyez-moi sur parole , mais nous pouvons à présent indiquer toutes les raisons pour lesquelles nous utilisons le coefficient de corrélation. On peut ensuite relier ces leçons de mathématiques aux heuristiques données dans les autres déclarations, telles que la réponse de Peter Flom.Var(x)Var(y) Var(x)Var(y)−−−−−−−−−−−√ à l'une des autres questions. Bien que cela ait été critiqué pour avoir introduit le concept en termes d'affirmations causales, cette leçon devrait également figurer à l'ordre du jour à un moment donné.
Je comprends que dans certaines circonstances, ce niveau de traitement ne serait pas approprié. Le sénat a besoin du résumé . Dans ce cas, vous pouvez vous référer aux heuristiques simples que les gens ont utilisées dans d’autres exemples, mais Rome n’a pas été construite en un jour. Et au sénat qui demande le résumé, si vous avez si peu de temps, vous devriez peut-être me croire sur parole, et vous dispenser des formalités des analogies et des points de balle.
la source
En d’autres termes, la corrélation étant simplement une représentation de la covariance, le résultat doit être compris entre -1 (corrélation parfaitement inverse) et +1 (corrélation positive), en notant qu’une valeur proche de zéro signifie que deux variables ne sont pas corrélées.
La covariance est illimitée et manque de contexte pour se comparer à d'autres covariances. En normalisant / ajustant / normalisant les covariances en une corrélation, les ensembles de données peuvent être comparés plus facilement.
Comme vous pouvez l’imaginer, il existe différentes manières de normaliser / normaliser une statistique (telle que la covariance). La formule mathématique pour la relation entre la corrélation et la covariance reflète simplement la convention utilisée par les statisticiens (à savoir, l'ajustement en fonction de leurs écarts types):
la source
Si vous connaissez l'idée de centrer et de normaliser, x-xbar doit centrer x à sa moyenne. Même chose pour y. La covariance centre donc simplement les données. La corrélation, cependant, centre non seulement les données, mais évolue également en utilisant l’écart type (normaliser). La multiplication et la somme sont le produit de points des deux vecteurs et indiquent comment ces deux vecteurs se comparent parallèlement (projection d'un vecteur sur l'autre). La division de (n-1) ou en prenant la valeur attendue est à l'échelle du nombre d'observations. Pensées?
la source
Pour autant que je l'ai compris. La corrélation est une version "normalisée" de la covariance.
la source
La corrélation est mise à l'échelle entre -1 et +1 selon qu'il existe une corrélation positive ou négative et est sans dimension. La covariance varie toutefois de zéro, dans le cas de deux variables indépendantes, à Var (X), dans le cas où les deux ensembles de données sont égaux. Les unités de COV (X, Y) sont les unités de X fois les unités de Y.
la source
The units of COV(X,Y) are the units of X times the units of Y.
souhaitez-vous élaborer?