... en supposant que je puisse augmenter leurs connaissances sur la variance de manière intuitive ( comprendre "variance" intuitivement ) ou en disant: C'est la distance moyenne des valeurs de données à partir de la "moyenne" - et puisque la variance est en carré unités, nous prenons la racine carrée pour garder les unités identiques et cela s'appelle l'écart type.
Supposons que cela soit énoncé et (espérons-le) compris par le «destinataire». Maintenant, qu'est-ce que la covariance et comment l'expliquerait-elle dans un anglais simple sans utiliser de termes / formules mathématiques? (Ie, explication intuitive.;)
Remarque: je connais les formules et les calculs derrière le concept. Je veux pouvoir "expliquer" la même chose d'une manière facile à comprendre, sans inclure les calculs; c.-à-d. que signifie même «covariance»?
la source
Réponses:
Parfois, nous pouvons "augmenter les connaissances" avec une approche inhabituelle ou différente. Je voudrais que cette réponse soit accessible aux enfants de la maternelle et s’amuse aussi, afin que tout le monde puisse sortir ses crayons!
Étant donné les données appariées , tracez leur diagramme de dispersion. (Les élèves plus jeunes peuvent avoir besoin d’un enseignant pour les obtenir. :-) Chaque paire de points , de ce graphique détermine un rectangle: c’est le plus petit rectangle, dont les côtés sont parallèles au axes, contenant ces points. Ainsi, les points se trouvent soit dans les coins supérieur droit et inférieur gauche (relation "positive"), soit dans les coins supérieur gauche et inférieur droit (relation "négative").( x , y) ( xje, yje) ( xj, yj)
Dessine tous ces rectangles possibles. Colorez-les de manière transparente, en rendant les rectangles positifs rouges (par exemple) et les négatifs négatifs "anti-rouge" (bleu). De cette façon, chaque fois que des rectangles se chevauchent, leurs couleurs sont améliorées s’ils sont identiques (bleu et bleu ou rouge et rouge) ou s’annulent s’ils sont différents.
( Dans cette illustration d’un rectangle positif (rouge) et négatif (bleu), le chevauchement doit être blanc. Malheureusement, ce logiciel n’a pas une vraie couleur "anti-rouge". Le chevauchement est gris, il va donc foncer. parcelle, mais dans l’ensemble, la quantité nette de rouge est correcte. )
Nous sommes maintenant prêts pour l'explication de la covariance.
La covariance est la quantité nette de rouge dans le graphique (traitement du bleu en tant que valeurs négatives).
Voici quelques exemples avec 32 points binormaux tirés de distributions avec les covariances données, du plus négatif (le plus bleu) au plus positif (le plus rouge).
Ils sont dessinés sur des axes communs pour les rendre comparables. Les rectangles sont légèrement soulignés pour vous aider à les voir. Il s'agit d'une version mise à jour (2019) de l'original: elle utilise un logiciel qui annule correctement les couleurs rouge et cyan des rectangles qui se chevauchent.
Donnons quelques propriétés de covariance. La compréhension de ces propriétés sera accessible à quiconque aura dessiné quelques-uns des rectangles. :-)
Bilinéarité Comme la quantité de rouge dépend de la taille du graphique, la covariance est directement proportionnelle à l'échelle sur l'axe des x et à l'échelle sur l'axe des y.
Corrélation. La covariance augmente à mesure que les points se rapprochent d'une ligne descendante et diminue à mesure que les points se rapprochent d'une ligne descendante. En effet, dans le premier cas, la plupart des rectangles sont positifs et dans le second, la plupart sont négatifs.
Relation avec les associations linéaires. Les associations non linéaires pouvant créer des mélanges de rectangles positifs et négatifs, elles entraînent des covariances imprévisibles (et peu utiles). Les associations linéaires peuvent être entièrement interprétées au moyen des deux caractérisations précédentes.
Sensibilité aux valeurs aberrantes. Une valeur géométrique (un point éloigné de la masse) créera de nombreux grands rectangles en association avec tous les autres points. Cela seul peut créer un montant net positif ou négatif de rouge dans l’ensemble.
Incidemment, cette définition de la covariance ne diffère de la définition habituelle que par une constante universelle de proportionnalité (indépendante de la taille du jeu de données). Les mathématiciens inclinés n'auront aucune difficulté à démontrer algébrique que la formule donnée ici est toujours le double de la covariance habituelle.
la source
Il est utile de rappeler la formule de base (simple à expliquer, inutile de parler d’espérances mathématiques pour un cours d’introduction):
la source
La covariance est une mesure du montant d’une variable lorsque l’autre augmente.
la source
Je réponds à ma propre question, mais je pensais que ce serait formidable que les personnes de cet article puissent consulter certaines des explications qui figurent sur cette page .
Je paraphrase l'une des réponses très bien articulées (par un user'Zhop '). Je le fais au cas où ce site serait fermé ou que la page soit retirée quand quelqu'un qui accède désormais à ce message accède à ce message;)
Ajout d'un autre (par 'CatofGrey') qui aide à augmenter l'intuition:
Ces deux ensemble m'ont fait comprendre la covariance comme je ne l'avais jamais comprise auparavant! Simplement extraordinaire!!
la source
J'aime beaucoup la réponse de Whuber, alors j'ai rassemblé quelques ressources supplémentaires. La covariance décrit à la fois dans quelle mesure les variables sont dispersées et la nature de leur relation.
La covariance utilise des rectangles pour décrire la distance entre une observation et la moyenne sur un graphe de dispersion:
Si un rectangle a des côtés longs et une largeur élevée ou des côtés courts et une largeur courte, cela indique que les deux variables se déplacent ensemble.
Si un rectangle a deux côtés relativement longs pour ces variables et deux côtés relativement courts pour l'autre variable, cette observation prouve que les variables ne se combinent pas très bien.
Si le rectangle est dans le deuxième ou le quatrième quadrant, alors, lorsqu'une variable est supérieure à la moyenne, l'autre est inférieure à la moyenne. Une augmentation d'une variable est associée à une diminution de l'autre.
J'ai trouvé une visualisation de cela à l' adresse http://sciguides.com/guides/covariance/ . Cela explique ce qu'est la covariance si vous ne connaissez que la moyenne.
la source
Voici une autre tentative pour expliquer la covariance avec une image. Chaque panneau de l'image ci-dessous contient 50 points simulés à partir d'une distribution à deux variables avec une corrélation entre x et y de 0,8 et des variances comme indiqué dans les étiquettes de ligne et de colonne. La covariance est indiquée dans le coin inférieur droit de chaque panneau.
Toute personne intéressée à améliorer cela ... voici le code R:
la source
J’ai adoré la réponse de @whuber - avant que je n’aie une idée vague de la façon dont la covariance pouvait être visualisée, mais ces tracés rectangulaires sont géniaux.
Cependant, étant donné que la formule de covariance implique la moyenne et que la question initiale du PO énonçait que le "récepteur" comprenait bien le concept de la moyenne, je pensais pouvoir adapter les tracés rectangulaires de @ whuber afin de comparer chaque point de moyens de x et y, car cela représente plus ce qui se passe dans la formule de covariance. Je pensais que cela avait finalement l'air assez intuitif:
Le point bleu au milieu de chaque tracé est la moyenne de x (x_mean) et la moyenne de y (y_mean).
Les rectangles comparent les valeurs de x-x_mean et de y-y_mean pour chaque point de données.
Le rectangle est vert lorsque:
Le rectangle est rouge lorsque:
La covariance (et la corrélation) peuvent être à la fois fortement négatives et fortement positives. Lorsque le graphique est dominé par une couleur de plus que l’autre, cela signifie que les données suivent généralement un motif cohérent.
La valeur réelle de la covariance pour deux variables différentes x et y est essentiellement la somme de toutes les zones vertes moins toutes les zones rouges, puis divisée par le nombre total de points de données - ce qui correspond en fait à la verdure moyenne du graphique. .
Comment ça sonne / regarde?
la source
La variance est la mesure dans laquelle un vairable aléatoire change par rapport à sa valeur attendue En raison de la nature stochastique du processus sous-jacent représenté par la variable aléatoire.
La covariance est la mesure dans laquelle deux variables aléatoires différentes changent l'une par rapport à l'autre. Cela peut se produire lorsque des variables aléatoires sont pilotées par le même processus sous-jacent, ou par des dérivés de celui-ci. Soit les processus représentés par ces variables aléatoires s’affectent, soit il s’agit du même processus, mais l’une des variables aléatoires est dérivée de l’autre.
la source
Je voudrais simplement expliquer la corrélation qui est assez intuitive. Je dirais que "la corrélation mesure la force de la relation entre deux variables X et Y. La corrélation est comprise entre -1 et 1 et sera proche de 1 en valeur absolue lorsque la relation est forte. La covariance est simplement la corrélation multipliée par les écarts-types de Donc, bien que la corrélation soit sans dimension, la covariance est dans le produit des unités pour la variable X et la variable Y.
la source
Deux variables qui auraient une covariance positive élevée (corrélation) seraient le nombre de personnes dans une pièce et le nombre de doigts dans la pièce. (À mesure que le nombre de personnes augmente, nous nous attendons à ce que le nombre de doigts augmente également.)
Quelque chose qui pourrait avoir une covariance négative (corrélation) serait l’âge d’une personne et le nombre de follicules pileux sur sa tête. Ou encore, le nombre de zits sur le visage d'une personne (dans un certain groupe d'âge) et le nombre de dates qu'ils ont par semaine. Nous nous attendons à ce que les personnes avec plus d'années aient moins de cheveux, et les personnes avec plus d'acné aient moins de dates. Celles-ci sont négativement corrélées.
la source