Comment expliqueriez-vous la covariance à quelqu'un qui ne comprend que la moyenne?

207

... en supposant que je puisse augmenter leurs connaissances sur la variance de manière intuitive ( comprendre "variance" intuitivement ) ou en disant: C'est la distance moyenne des valeurs de données à partir de la "moyenne" - et puisque la variance est en carré unités, nous prenons la racine carrée pour garder les unités identiques et cela s'appelle l'écart type.

Supposons que cela soit énoncé et (espérons-le) compris par le «destinataire». Maintenant, qu'est-ce que la covariance et comment l'expliquerait-elle dans un anglais simple sans utiliser de termes / formules mathématiques? (Ie, explication intuitive.;)

Remarque: je connais les formules et les calculs derrière le concept. Je veux pouvoir "expliquer" la même chose d'une manière facile à comprendre, sans inclure les calculs; c.-à-d. que signifie même «covariance»?

Doctorat
la source
1
@ Xi'an - "comment" le définiriez-vous exactement via une simple régression linéaire ? J'aimerais vraiment savoir ...
PhD
3
En supposant que vous ayez déjà un diagramme de dispersion de vos deux variables, x vs. y, dont l'origine est à (0,0), tracez simplement deux lignes à x = moyenne (x) (verticale) et y = moyenne (x) (horizontale): en utilisant ce nouveau système de coordonnées (l’origine est à (moyenne (x), moyenne (y))), placez un signe "+" dans les quadrants en haut à droite et en bas à gauche, un signe "-" dans les deux autres quadrants; vous avez eu le signe de la covariance, qui est essentiellement ce que @Peter a dit . La mise à l'échelle des unités x et y (par SD) conduit à un résumé plus interprétable, comme indiqué dans la discussion suivante .
chl
1
@chl - pourriez-vous s'il vous plaît poster cela comme une réponse et peut-être utiliser des graphiques pour le représenter!
PhD
J'ai trouvé la vidéo sur ce site Web pour m'aider, car je préfère les images aux explications abstraites. Site Web avec vidéo Spécifiquement cette image :! [Entrez la description de l'image ici ] ( i.stack.imgur.com/xGZFv.png )
Karl Morrison

Réponses:

375

Parfois, nous pouvons "augmenter les connaissances" avec une approche inhabituelle ou différente. Je voudrais que cette réponse soit accessible aux enfants de la maternelle et s’amuse aussi, afin que tout le monde puisse sortir ses crayons!

Étant donné les données appariées , tracez leur diagramme de dispersion. (Les élèves plus jeunes peuvent avoir besoin d’un enseignant pour les obtenir. :-) Chaque paire de points , de ce graphique détermine un rectangle: c’est le plus petit rectangle, dont les côtés sont parallèles au axes, contenant ces points. Ainsi, les points se trouvent soit dans les coins supérieur droit et inférieur gauche (relation "positive"), soit dans les coins supérieur gauche et inférieur droit (relation "négative").(x,y)(xi,yi)(xj,yj)

Dessine tous ces rectangles possibles. Colorez-les de manière transparente, en rendant les rectangles positifs rouges (par exemple) et les négatifs négatifs "anti-rouge" (bleu). De cette façon, chaque fois que des rectangles se chevauchent, leurs couleurs sont améliorées s’ils sont identiques (bleu et bleu ou rouge et rouge) ou s’annulent s’ils sont différents.

Rectangles positifs et négatifs

( Dans cette illustration d’un rectangle positif (rouge) et négatif (bleu), le chevauchement doit être blanc. Malheureusement, ce logiciel n’a pas une vraie couleur "anti-rouge". Le chevauchement est gris, il va donc foncer. parcelle, mais dans l’ensemble, la quantité nette de rouge est correcte. )

Nous sommes maintenant prêts pour l'explication de la covariance.

La covariance est la quantité nette de rouge dans le graphique (traitement du bleu en tant que valeurs négatives).

Voici quelques exemples avec 32 points binormaux tirés de distributions avec les covariances données, du plus négatif (le plus bleu) au plus positif (le plus rouge).

Parcelles de covariance, mises à jour 2019

Ils sont dessinés sur des axes communs pour les rendre comparables. Les rectangles sont légèrement soulignés pour vous aider à les voir. Il s'agit d'une version mise à jour (2019) de l'original: elle utilise un logiciel qui annule correctement les couleurs rouge et cyan des rectangles qui se chevauchent.

Donnons quelques propriétés de covariance. La compréhension de ces propriétés sera accessible à quiconque aura dessiné quelques-uns des rectangles. :-)

  • Bilinéarité Comme la quantité de rouge dépend de la taille du graphique, la covariance est directement proportionnelle à l'échelle sur l'axe des x et à l'échelle sur l'axe des y.

  • Corrélation. La covariance augmente à mesure que les points se rapprochent d'une ligne descendante et diminue à mesure que les points se rapprochent d'une ligne descendante. En effet, dans le premier cas, la plupart des rectangles sont positifs et dans le second, la plupart sont négatifs.

  • Relation avec les associations linéaires. Les associations non linéaires pouvant créer des mélanges de rectangles positifs et négatifs, elles entraînent des covariances imprévisibles (et peu utiles). Les associations linéaires peuvent être entièrement interprétées au moyen des deux caractérisations précédentes.

  • Sensibilité aux valeurs aberrantes. Une valeur géométrique (un point éloigné de la masse) créera de nombreux grands rectangles en association avec tous les autres points. Cela seul peut créer un montant net positif ou négatif de rouge dans l’ensemble.

Incidemment, cette définition de la covariance ne diffère de la définition habituelle que par une constante universelle de proportionnalité (indépendante de la taille du jeu de données). Les mathématiciens inclinés n'auront aucune difficulté à démontrer algébrique que la formule donnée ici est toujours le double de la covariance habituelle.

whuber
la source
92
+1 Wow. Cela fonctionne même pour expliquer la covariance à ceux qui pensaient déjà savoir de quoi il s'agissait.
Aaron
7
+1 J'aime beaucoup lire votre réponse. Je vais dessiner des rectangles et laisser mon fils les peindre :)
chl
18
Maintenant, si seulement tous les concepts statistiques introductifs pouvaient être présentés aux étudiants de cette manière lucide…
MannyG
4
C'est beau. Et très très clair.
Benjamin Mako Hill
4
(x¯,y¯)
61

xy

Il est utile de rappeler la formule de base (simple à expliquer, inutile de parler d’espérances mathématiques pour un cours d’introduction):

cov(x,y)=1ni=1n(xix¯)(yiy¯)

(xi,yi)x¯y¯

y=1.2x+εy=0.1x+εεSD=2x[0,20]

entrez la description de l'image ici

xy(0,0)(x¯,y¯)

   +  -
+ 30  2
-  0 28

xiyiy¯xyb=Cov(x,y)/Var(x)

xi

   +  -
+ 18 14
- 12 16

xiyi

xy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)xy

chl
la source
28

La covariance est une mesure du montant d’une variable lorsque l’autre augmente.

Peter Flom
la source
1
Est-ce toujours dans la même direction? Est-ce que cela s'applique aussi aux relations inverses (c.-à-d. Quand on monte, l'autre descend)?
PhD
4
@nupul Eh bien, l'opposé de "up" est "down" et l'opposé de "positif" est "négatif". J'ai essayé de donner une réponse en une phrase. Le vôtre est beaucoup plus complet. Même votre "comment deux variables changent ensemble" est plus complet, mais, je pense, un peu plus difficile à comprendre.
Peter Flom
1
+1 pour l'ajuster dans une phrase simple et simple, mais n'est-ce pas une corrélation? Je veux dire, je connais plus de cov => plus de corr, mais avec cette phrase, je m'attendrais à quelque chose comme "80%" comme réponse, ce qui correspond à corr = 0,8. La cov ne décrit-elle pas également la variance dans les données? c'est à dire. "La covariance est proportionnelle au pourcentage d'augmentation d'une variable lorsque l'autre augmente, et également proportionnelle à la dispersion des données dans les deux variables" ou quelque chose du genre?
naught101
4
C’est vrai, Peter, c’est pourquoi @ naught101 a fait ce commentaire: votre description ressemble à un taux de changement, dont les unités seront donc [unités d’une variable] / [unités de l’autre variable] (si nous l’interprétons comme un dérivé ) ou sera simplement [unités d'une variable] (si nous interprétons comme une différence pure). Ce ne sont ni une covariance (dont l'unité de mesure est le produit des unités pour les deux variables) ni une corrélation (qui est sans unité).
whuber
1
XY1,YXY
12

Je réponds à ma propre question, mais je pensais que ce serait formidable que les personnes de cet article puissent consulter certaines des explications qui figurent sur cette page .

Je paraphrase l'une des réponses très bien articulées (par un user'Zhop '). Je le fais au cas où ce site serait fermé ou que la page soit retirée quand quelqu'un qui accède désormais à ce message accède à ce message;)

La covariance est une mesure de la façon dont deux variables changent ensemble. Comparez cela à la variance, qui correspond à la plage sur laquelle une mesure (ou variable) varie.

En étudiant les modèles sociaux, vous pouvez émettre l’hypothèse que les personnes plus aisées ont tendance à être plus éduquées. Vous devriez donc essayer de voir dans quelle mesure les mesures de la richesse et de l’éducation restent cohérentes. Vous utiliseriez une mesure de covariance pour le déterminer.

...

Je ne suis pas sûr de comprendre ce que vous voulez dire quand vous demandez comment cela s’applique aux statistiques. C'est une mesure enseignée dans de nombreux cours de statistiques. Voulez-vous dire, quand devriez-vous l'utiliser?

Vous l'utilisez quand vous voulez voir combien deux variables ou plus changent l'une par rapport à l'autre.

Pensez aux membres d'une équipe. Regardez comment ils varient dans leur localisation géographique les uns par rapport aux autres. Lorsque l'équipe joue ou pratique, la distance entre les membres individuels est très petite et nous dirions qu'ils se trouvent au même endroit. Et lorsque leur emplacement change, cela change pour tous les individus ensemble (par exemple, voyager dans un bus pour assister à une partie). Dans cette situation, nous dirions qu'ils ont un niveau élevé de covariance. Mais quand ils ne jouent pas, alors le taux de covariance sera probablement assez bas, car ils vont tous à des endroits différents à des vitesses différentes.

Ainsi, vous pouvez prédire l'emplacement d'un membre de l'équipe, en fonction de l'emplacement d'un autre membre de l'équipe, lorsque ces joueurs jouent ou jouent à un jeu avec un degré élevé de précision. La mesure de la covariance serait proche de 1, je crois. Mais lorsqu'ils ne pratiquent pas ou ne jouent pas, vous aurez beaucoup moins de chances de prédire l'emplacement d'une personne, en fonction de l'emplacement d'un membre de l'équipe. Il serait probablement proche de zéro, bien que ce ne soit pas zéro, car parfois les membres de l'équipe sont des amis et peuvent se déplacer ensemble quand bon leur semble.

Cependant, si vous sélectionniez au hasard des individus aux États-Unis et tentiez d'utiliser l'un d'eux pour prédire l'emplacement de l'autre, vous constateriez probablement que la covariance était égale à zéro. En d'autres termes, il n'y a absolument aucune relation entre l'emplacement d'une personne sélectionnée au hasard aux États-Unis et celui d'une autre.

Ajout d'un autre (par 'CatofGrey') qui aide à augmenter l'intuition:

Dans la théorie des probabilités et les statistiques, la covariance est la mesure de la variation simultanée de deux variables aléatoires (par opposition à la variance, qui mesure la variation d'une variable).

Si deux variables ont tendance à varier ensemble (c'est-à-dire si l'une d'elles est supérieure à sa valeur attendue, l'autre variable a également tendance à être supérieure à sa valeur attendue également), la covariance entre les deux variables sera positive. D'autre part, si l'une d'elles est supérieure à sa valeur attendue et que l'autre variable a tendance à être inférieure à sa valeur attendue, la covariance entre les deux variables sera négative.

Ces deux ensemble m'ont fait comprendre la covariance comme je ne l'avais jamais comprise auparavant! Simplement extraordinaire!!

Doctorat
la source
15
Bien que ces descriptions soient qualitativement suggestives, elles sont malheureusement incomplètes: elles ne distinguent pas la covariance de la corrélation (la première description semble confondre les deux, en fait), ni ne font ressortir l’hypothèse fondamentale de la co-variation linéaire . En outre, ni l'un ni l'autre ne traite de l'aspect important selon lequel la covariance dépend (linéairement) de l'échelle de chaque variable.
whuber
@whuber - d'accord! Et donc n’ont pas marqué la mienne comme réponse :) (pas encore;)
Doctorat
12

J'aime beaucoup la réponse de Whuber, alors j'ai rassemblé quelques ressources supplémentaires. La covariance décrit à la fois dans quelle mesure les variables sont dispersées et la nature de leur relation.

La covariance utilise des rectangles pour décrire la distance entre une observation et la moyenne sur un graphe de dispersion:

  • Si un rectangle a des côtés longs et une largeur élevée ou des côtés courts et une largeur courte, cela indique que les deux variables se déplacent ensemble.

  • Si un rectangle a deux côtés relativement longs pour ces variables et deux côtés relativement courts pour l'autre variable, cette observation prouve que les variables ne se combinent pas très bien.

  • Si le rectangle est dans le deuxième ou le quatrième quadrant, alors, lorsqu'une variable est supérieure à la moyenne, l'autre est inférieure à la moyenne. Une augmentation d'une variable est associée à une diminution de l'autre.

J'ai trouvé une visualisation de cela à l' adresse http://sciguides.com/guides/covariance/ . Cela explique ce qu'est la covariance si vous ne connaissez que la moyenne.

arthur.00
la source
7
+1 Belle explication (en particulier ce résumé introductif d'une phrase). Le lien est intéressant. Comme il n’ya pas d’archive sur la machine Wayback, c’est probablement nouveau. Parce que cela correspond si étroitement à ma réponse (âgée de trois ans), jusqu'au choix entre rouge pour les relations positives et bleu pour les relations négatives, je suppose que c'est un dérivé (non attribué) du contenu de ce site.
whuber
4
Le lien "cool visualisation" est mort ....
whuber
1
@MSIS Ce n'est pas possible à comprendre, car il y a un très grand nombre de distributions possibles sur le cercle. Mais si vous vous référez à la distribution uniforme , il n'y a rien à calculer, car (comme je me souviens de l'avoir remarqué dans votre fil sur stats.stackexchange.com/q/414365/919 ), le coefficient de corrélation doit être égal à son propre négatif, QED.
whuber
1
XX0XX2X1,XX2:11
whuber
1
α,a<αb((ba)mod2π)/(2π).
10

Voici une autre tentative pour expliquer la covariance avec une image. Chaque panneau de l'image ci-dessous contient 50 points simulés à partir d'une distribution à deux variables avec une corrélation entre x et y de 0,8 et des variances comme indiqué dans les étiquettes de ligne et de colonne. La covariance est indiquée dans le coin inférieur droit de chaque panneau.

Différentes covariances, toutes avec corrélation = 0.8

Toute personne intéressée à améliorer cela ... voici le code R:

library(mvtnorm)

rowvars <- colvars <- c(10,20,30,40,50)

all <- NULL
for(i in 1:length(colvars)){
  colvar <- colvars[i]
  for(j in 1:length(rowvars)){
    set.seed(303)  # Put seed here to show same data in each panel
    rowvar <- rowvars[j]
    # Simulate 50 points, corr=0.8
    sig <- matrix(c(rowvar, .8*sqrt(rowvar)*sqrt(colvar), .8*sqrt(rowvar)*sqrt(colvar), colvar), nrow=2)
    yy <- rmvnorm(50, mean=c(0,0), sig)
    dati <- data.frame(i=i, j=j, colvar=colvar, rowvar=rowvar, covar=.8*sqrt(rowvar)*sqrt(colvar), yy)
    all <- rbind(all, dati)
  }
}
names(all) <- c('i','j','colvar','rowvar','covar','x','y')
all <- transform(all, colvar=factor(colvar), rowvar=factor(rowvar))
library(latticeExtra)
useOuterStrips(xyplot(y~x|colvar*rowvar, all, cov=all$covar,
                      panel=function(x,y,subscripts, cov,...){
                        panel.xyplot(x,y,...)
                        print(cor(x,y))
                        ltext(14,-12, round(cov[subscripts][1],0))
                      }))
Kevin Wright
la source
10

J’ai adoré la réponse de @whuber - avant que je n’aie une idée vague de la façon dont la covariance pouvait être visualisée, mais ces tracés rectangulaires sont géniaux.

Cependant, étant donné que la formule de covariance implique la moyenne et que la question initiale du PO énonçait que le "récepteur" comprenait bien le concept de la moyenne, je pensais pouvoir adapter les tracés rectangulaires de @ whuber afin de comparer chaque point de moyens de x et y, car cela représente plus ce qui se passe dans la formule de covariance. Je pensais que cela avait finalement l'air assez intuitif: "Graphes de covariance pour une variable avec différentes corrélations"

Le point bleu au milieu de chaque tracé est la moyenne de x (x_mean) et la moyenne de y (y_mean).

Les rectangles comparent les valeurs de x-x_mean et de y-y_mean pour chaque point de données.

Le rectangle est vert lorsque:

  • x et y sont tous deux supérieurs à leurs moyens respectifs
  • x et y sont tous deux inférieurs à leurs moyennes respectives

Le rectangle est rouge lorsque:

  • x est supérieur à x_moyen mais y est inférieur à y_moyen
  • x est inférieur à x_moyen mais y est supérieur à y_moyen

La covariance (et la corrélation) peuvent être à la fois fortement négatives et fortement positives. Lorsque le graphique est dominé par une couleur de plus que l’autre, cela signifie que les données suivent généralement un motif cohérent.

  • Si le graphique contient beaucoup plus de vert que de rouge, cela signifie que y augmente généralement lorsque x augmente.
  • Si le graphique contient beaucoup plus de rouge que de vert, cela signifie que y diminue généralement lorsque x augmente.
  • Si le graphe n'est pas dominé par une couleur ou une autre, cela signifie qu'il n'y a pas beaucoup de régularité dans la façon dont x et y sont liés.

La valeur réelle de la covariance pour deux variables différentes x et y est essentiellement la somme de toutes les zones vertes moins toutes les zones rouges, puis divisée par le nombre total de points de données - ce qui correspond en fait à la verdure moyenne du graphique. .

Comment ça sonne / regarde?

capohugo
la source
3

La variance est la mesure dans laquelle un vairable aléatoire change par rapport à sa valeur attendue En raison de la nature stochastique du processus sous-jacent représenté par la variable aléatoire.

La covariance est la mesure dans laquelle deux variables aléatoires différentes changent l'une par rapport à l'autre. Cela peut se produire lorsque des variables aléatoires sont pilotées par le même processus sous-jacent, ou par des dérivés de celui-ci. Soit les processus représentés par ces variables aléatoires s’affectent, soit il s’agit du même processus, mais l’une des variables aléatoires est dérivée de l’autre.

Kingz
la source
2

Je voudrais simplement expliquer la corrélation qui est assez intuitive. Je dirais que "la corrélation mesure la force de la relation entre deux variables X et Y. La corrélation est comprise entre -1 et 1 et sera proche de 1 en valeur absolue lorsque la relation est forte. La covariance est simplement la corrélation multipliée par les écarts-types de Donc, bien que la corrélation soit sans dimension, la covariance est dans le produit des unités pour la variable X et la variable Y.

Michael Chernick
la source
10
Cela semble insuffisant car il n’est pas fait mention de linéarité. X et Y pourraient avoir une forte relation quadratique mais une corrélation de zéro.
mark999
0

Deux variables qui auraient une covariance positive élevée (corrélation) seraient le nombre de personnes dans une pièce et le nombre de doigts dans la pièce. (À mesure que le nombre de personnes augmente, nous nous attendons à ce que le nombre de doigts augmente également.)

Quelque chose qui pourrait avoir une covariance négative (corrélation) serait l’âge d’une personne et le nombre de follicules pileux sur sa tête. Ou encore, le nombre de zits sur le visage d'une personne (dans un certain groupe d'âge) et le nombre de dates qu'ils ont par semaine. Nous nous attendons à ce que les personnes avec plus d'années aient moins de cheveux, et les personnes avec plus d'acné aient moins de dates. Celles-ci sont négativement corrélées.

Adam
la source
2
La covariance n'est pas nécessairement interchangeable avec la corrélation - la première est très dépendante de l'unité. La corrélation est un nombre compris entre -1 et 1, un scalaire sans unité représentant la "force" de la covariance OMI et ce n'est pas clair d'après votre réponse
PhD
La réponse négative en tant que réponse implique que covariance et corrélation peuvent être utilisées de manière interchangeable.
sapo_cosmico