J'essayais de mieux comprendre la covariance de deux variables aléatoires et de comprendre comment la première personne qui y avait pensé était arrivée à la définition couramment utilisée en statistique. Je suis allé sur wikipedia pour mieux le comprendre. D'après l'article, il semble qu'une bonne mesure ou quantité candidate pour devrait avoir les propriétés suivantes:
- Il devrait avoir un signe positif lorsque deux variables aléatoires sont similaires (c'est-à-dire lorsque l'une augmente l'autre et que l'une diminue également).
- Nous voulons également qu'il ait un signe négatif lorsque deux variables aléatoires sont opposées (c'est-à-dire lorsque l'une augmente, l'autre variable aléatoire tend à diminuer)
- Enfin, nous voulons que cette quantité de covariance soit nulle (ou extrêmement petite probablement?) Lorsque les deux variables sont indépendantes l'une de l'autre (c'est-à-dire qu'elles ne co-varient pas l'une par rapport à l'autre).
A partir des propriétés ci-dessus, nous voulons définir . Ma première question est, il n'est pas entièrement évident pour moi pourquoi satisfait ces propriétés. D'après les propriétés que nous avons, je me serais attendu à ce qu'une plus grande équation de type "dérivée" soit le candidat idéal. Par exemple, quelque chose de plus comme "si le changement de X positif, alors le changement de Y devrait également être positif". Aussi, pourquoi est-ce que la différence entre la moyenne et la «bonne» chose à faire?C o v ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]
Une question plus tangentielle, mais toujours intéressante, existe-t-il une définition différente qui aurait pu satisfaire ces propriétés et qui aurait quand même été significative et utile? Je pose la question car il semble que personne ne se demande pourquoi nous utilisons cette définition en premier lieu (on dirait que c'est "toujours comme ça", ce qui, à mon avis, est une terrible raison et entrave la recherche scientifique et curiosité mathématique et réflexion). La définition acceptée est-elle la "meilleure" définition que nous pourrions avoir?
Voici mes réflexions sur la raison pour laquelle la définition acceptée a du sens (ce ne sera qu'un argument intuitif):
Soit une certaine différence pour la variable X (c'est-à-dire qu'elle est passée d'une certaine valeur à une autre valeur à un moment donné). De même pour définir .Δ Y
Pour une instance dans le temps, nous pouvons calculer s'ils sont liés ou non en faisant:
C'est plutôt sympa! Pour une instance dans le temps, il satisfait les propriétés que nous voulons. S'ils augmentent tous les deux ensemble, alors la plupart du temps, la quantité ci-dessus doit être positive (et de même, lorsqu'ils sont opposés, elle sera négative, car les auront des signes opposés).
Mais cela ne nous donne que la quantité que nous voulons pour une instance dans le temps, et comme ils sont rv, nous pourrions surapparaître si nous décidons de baser la relation de deux variables sur la base d'une seule observation. Alors pourquoi ne pas vous attendre à voir le produit "moyen" des différences.
Ce qui devrait saisir en moyenne quelle est la relation moyenne telle que définie ci-dessus! Mais le seul problème que pose cette explication est: de quoi mesure-t-on cette différence? Ce qui semble être résolu en mesurant cette différence par rapport à la moyenne (ce qui, pour une raison quelconque, est la bonne chose à faire).
Je suppose que le principal problème que j'ai avec la définition est de prendre la différence de la moyenne . Je n'arrive pas encore à me justifier cela.
L'interprétation du signe peut être laissée à une question différente, car il semble que ce soit un sujet plus compliqué.
la source
Réponses:
Imaginez que nous commencions avec une pile de nombres vide. Ensuite, nous commençons à dessiner des paires partir de leur distribution conjointe. Une des quatre choses peut se produire:( X, Y)
Ensuite, pour obtenir une mesure globale de la (dis-) similitude de X et Y, nous additionnons toutes les valeurs des nombres sur la pile. Une somme positive suggère que les variables évoluent dans le même sens en même temps. Une somme négative suggère que les variables se déplacent dans des directions opposées le plus souvent. Une somme nulle suggère que connaître la direction d'une variable ne vous dit pas grand-chose sur la direction de l'autre.
Il est important de penser à «plus grand que la moyenne» plutôt qu'à «grand» (ou «positif») car deux variables non négatives seraient alors jugées similaires (par exemple, la taille du prochain accident de voiture sur le M42 et le nombre de billets achetés à la gare de Paddington demain).
La formule de covariance est une formalisation de ce processus:
Utiliser la distribution de probabilité plutôt que la simulation de monte carlo et spécifier la taille du nombre que nous mettons sur la pile.
la source
Voici ma façon intuitive de le regarder sans aucune équation.
C'est une généralisation de la variance aux dimensions supérieures. La motivation est probablement venue d'essayer de décrire le comportement des données. Au premier ordre, nous avons son emplacement - la moyenne. Au deuxième ordre, nous avons la dispersion - la covariance.
la diffusion est évaluée par rapport au centre de la distribution. La définition la plus élémentaire de la variance est «l'écart moyen par rapport à la moyenne». par conséquent, vous devez également soustraire la moyenne dans le cas de la covariance.
Une autre motivation principale qui me vient à l'esprit est la nécessité de définir un moyen de mesurer la distance entre les variables aléatoires. La distance de Mahalanobis et la covariance vont de pair: étant donné une distribution gaussienne et deux autres échantillons qui ont une distance euclidienne égale à la moyenne de distribution. Si je vous demande lequel des échantillons est le plus susceptible d'être une valeur aberrante qui n'a pas été tirée de la distribution gaussienne, la distance euclidienne ne fera pas l'affaire. La distance de Mahalanobis a une seule différence notable par rapport à la distance euclidienne: elle prend en compte la dispersion (covariance) de la distribution. Cela vous permet de généraliser la distance aux variables aléatoires.
la source
Alors maintenant, considérons comme avant mais définissons . Il est très clair qu'à mesure qu'une variable augmente, l'autre diminue. Mais, alors que la définition standard cov donne une valeur négative comme vous le souhaitez.X Oui= 1 - X E[ XOui] = 0 ( X, Y) = E[ ( X- E[ X] ) ( Y- E[ Oui] ) ]
Encore une fois, laissez être comme avant mais définissez maintenant . Il est très clair qu'à mesure qu'une variable augmente, l'autre augmente également. Mais, est négatif au lieu d'être positif comme vous le souhaitez, tandis que la définition standard cov donne une valeur positive juste comme vous le souhaitez.X Oui= X- 1 E[ XOui] ( X, Y) = E[ ( X- E[ X] ) ( Y- E[ Oui] ) ]
Enfin, la définition standard de covariance simplifie la définition de la variance lorsque .X= Y
la source
Je me posais la même question, et l'intuition donnée par les conjectures m'a aidé. Pour visualiser l'intuition, j'ai pris deux vecteurs normaux aléatoires, x et y, tracé le nuage de points et coloré chaque point par le produit de leurs écarts par rapport à leurs moyennes respectives (bleu pour les valeurs positives, rouge pour les négatifs).
Comme le montre clairement le graphique, le produit est le plus positif dans les quadrants supérieur droit et inférieur gauche, tandis qu'il est le plus négatif dans les quadrants inférieur droit et supérieur gauche. L'effet de la somme des produits se traduirait par 0, car les points bleus annulent les rouges.
Mais vous pouvez voir que si nous supprimons les points rouges, les données restantes présentent une relation positive entre elles, qui est validée par la somme positive des produits (c'est-à-dire la somme des points bleus).
la source
dans l'espace vectoriel des variables aléatoires, il est raisonnable de définir le carré de la distance entre deux variables aléatoires x et y avec E {(xy) ^ 2} maintenant par rapport à cette définition du produit scalaire de distance ou la relation des variables aléatoires sera E {xy} qui est tellement similaire à la définition de la covariance sauf les termes -E {x} et -E {y} qui sont pour le type de normalisation.
la source