Intuition sur la définition de la covariance

11

J'essayais de mieux comprendre la covariance de deux variables aléatoires et de comprendre comment la première personne qui y avait pensé était arrivée à la définition couramment utilisée en statistique. Je suis allé sur wikipedia pour mieux le comprendre. D'après l'article, il semble qu'une bonne mesure ou quantité candidate pour devrait avoir les propriétés suivantes:Cov(X,Oui)

  1. Il devrait avoir un signe positif lorsque deux variables aléatoires sont similaires (c'est-à-dire lorsque l'une augmente l'autre et que l'une diminue également).
  2. Nous voulons également qu'il ait un signe négatif lorsque deux variables aléatoires sont opposées (c'est-à-dire lorsque l'une augmente, l'autre variable aléatoire tend à diminuer)
  3. Enfin, nous voulons que cette quantité de covariance soit nulle (ou extrêmement petite probablement?) Lorsque les deux variables sont indépendantes l'une de l'autre (c'est-à-dire qu'elles ne co-varient pas l'une par rapport à l'autre).

A partir des propriétés ci-dessus, nous voulons définir . Ma première question est, il n'est pas entièrement évident pour moi pourquoi satisfait ces propriétés. D'après les propriétés que nous avons, je me serais attendu à ce qu'une plus grande équation de type "dérivée" soit le candidat idéal. Par exemple, quelque chose de plus comme "si le changement de X positif, alors le changement de Y devrait également être positif". Aussi, pourquoi est-ce que la différence entre la moyenne et la «bonne» chose à faire?C o v ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]Cov(X,Oui)Cov(X,Oui)=E[(X-E[X])(Oui-E[Oui])]

Une question plus tangentielle, mais toujours intéressante, existe-t-il une définition différente qui aurait pu satisfaire ces propriétés et qui aurait quand même été significative et utile? Je pose la question car il semble que personne ne se demande pourquoi nous utilisons cette définition en premier lieu (on dirait que c'est "toujours comme ça", ce qui, à mon avis, est une terrible raison et entrave la recherche scientifique et curiosité mathématique et réflexion). La définition acceptée est-elle la "meilleure" définition que nous pourrions avoir?


Voici mes réflexions sur la raison pour laquelle la définition acceptée a du sens (ce ne sera qu'un argument intuitif):

Soit une certaine différence pour la variable X (c'est-à-dire qu'elle est passée d'une certaine valeur à une autre valeur à un moment donné). De même pour définir .Δ YΔXΔOui

Pour une instance dans le temps, nous pouvons calculer s'ils sont liés ou non en faisant:

sjegn(ΔXΔOui)

C'est plutôt sympa! Pour une instance dans le temps, il satisfait les propriétés que nous voulons. S'ils augmentent tous les deux ensemble, alors la plupart du temps, la quantité ci-dessus doit être positive (et de même, lorsqu'ils sont opposés, elle sera négative, car les auront des signes opposés).eltune

Mais cela ne nous donne que la quantité que nous voulons pour une instance dans le temps, et comme ils sont rv, nous pourrions surapparaître si nous décidons de baser la relation de deux variables sur la base d'une seule observation. Alors pourquoi ne pas vous attendre à voir le produit "moyen" des différences.

sjegn(E[ΔXΔOui])

Ce qui devrait saisir en moyenne quelle est la relation moyenne telle que définie ci-dessus! Mais le seul problème que pose cette explication est: de quoi mesure-t-on cette différence? Ce qui semble être résolu en mesurant cette différence par rapport à la moyenne (ce qui, pour une raison quelconque, est la bonne chose à faire).

Je suppose que le principal problème que j'ai avec la définition est de prendre la différence de la moyenne . Je n'arrive pas encore à me justifier cela.


L'interprétation du signe peut être laissée à une question différente, car il semble que ce soit un sujet plus compliqué.

Charlie Parker
la source
2
Le point de départ peut être le concept ou l'intuition du produit croisé (la covariance n'en est que l'extension). Si nous avons deux séries de nombres X et Y de la même longueur et que nous définissons le produit croisé additionné comme Sum (Xi * Yi), il est maximisé si les deux séries ont été triées dans le même ordre et est minimisé si une les séries ont été triées par ordre croissant et l'autre par ordre décroissant.
ttnphns
La différence avec la moyenne n'est pas la question fondamentale. C'est juste la grandeur qui compte, la différence avec l'origine; pour certaines raisons, il est naturellement et commode de mettre l'origine dans la moyenne.
ttnphns
@ttnphns êtes-vous en train de dire que s'ils covarient ensemble, alors la covariance doit être "maximisée" et s'ils covarient en face, elle doit être aussi négative que possible? (c.-à-d. minimisé) Pourquoi n'est-il pas défini alors comme l'attente du produit croisé?
Charlie Parker
La covariance est naturelle pour les variables sans origine inhérente. Nous calculons ensuite la moyenne comme origine (la moyenne a de belles propriétés sans rapport avec le thème de l'association, elle est donc généralement choisie). Si l'origine est inhérente et a un sens, il est raisonnable de s'y tenir, alors la "covariance" (co-éclatement) ne sera pas symétrique, mais qui s'en soucie?
ttnphns
1
Cette réponse fournit un très bon morceau d'intuition concernant la covariance.
Glen_b -Reinstate Monica

Réponses:

10

Imaginez que nous commencions avec une pile de nombres vide. Ensuite, nous commençons à dessiner des paires partir de leur distribution conjointe. Une des quatre choses peut se produire:(X,Oui)

  1. Si X et Y sont plus grands que leurs moyennes respectives, nous disons que la paire est similaire et nous mettons donc un nombre positif sur la pile.
  2. Si X et Y sont plus petits, alors leurs moyennes respectives, nous disons que la paire est similaire et met un nombre positif sur la pile.
  3. Si X est plus grand que sa moyenne et Y est plus petit que sa moyenne, nous disons que la paire est différente et met un nombre négatif sur la pile.
  4. Si X est plus petit que sa moyenne et Y est plus grand que sa moyenne, nous disons que la paire est différente et met un nombre négatif sur la pile.

Ensuite, pour obtenir une mesure globale de la (dis-) similitude de X et Y, nous additionnons toutes les valeurs des nombres sur la pile. Une somme positive suggère que les variables évoluent dans le même sens en même temps. Une somme négative suggère que les variables se déplacent dans des directions opposées le plus souvent. Une somme nulle suggère que connaître la direction d'une variable ne vous dit pas grand-chose sur la direction de l'autre.

Il est important de penser à «plus grand que la moyenne» plutôt qu'à «grand» (ou «positif») car deux variables non négatives seraient alors jugées similaires (par exemple, la taille du prochain accident de voiture sur le M42 et le nombre de billets achetés à la gare de Paddington demain).

La formule de covariance est une formalisation de ce processus:

Cov(X,Oui)=E[(X-E[X])(Oui-E[Oui])]

Utiliser la distribution de probabilité plutôt que la simulation de monte carlo et spécifier la taille du nombre que nous mettons sur la pile.

conjectures
la source
Wow, c'est une très bonne réponse. Juste une dernière chose, pensez - vous bien ajouter plus de détails sur la justification des raisons pour lesquelles il a à la différence forment la moyenne ? Pourquoi pas une autre valeur? Pourquoi est-ce logique? Je pense que c'est la principale chose qui me bloque à l'intériorisation complète de cette définition. Merci btw!
Charlie Parker
Merci. Supposons qu'il y ait deux gros camions dans deux pays différents. Maintenant, les gros camions ont tendance à transporter de grosses charges. Si nous ajoutions un nombre positif à la pile chaque fois que chaque camion transportait une grosse charge, nous finirions par devoir dire que le comportement des deux camions était très similaire. Mais en réalité, la taille de la charge transportée par un camion n'est pas liée à la taille de la charge transportée par l'autre à un moment donné. Il se trouve qu'ils sont tous les deux de gros camions. Notre mesure de similitude ne serait donc pas utile. C'est pourquoi nous devons penser à «plus grand que la moyenne».
conjectures
Désolé, c'est un peu tard, mais j'ai décidé de revoir ce sujet et j'ai encore une question sur la raison de sa différence par rapport à la moyenne. La différence par rapport à leurs moyennes respectives est-elle importante car chaque variable aléatoire X et Y peut provenir d'échelles différentes? c'est-à-dire pour avoir une idée de ce qu'est "grand", son différent en fonction de quelle échelle de base ils sont. Donc, pour surmonter ce problème d'échelle, nous le comparons à leurs moyens respectifs?
Charlie Parker
1

Voici ma façon intuitive de le regarder sans aucune équation.

  1. C'est une généralisation de la variance aux dimensions supérieures. La motivation est probablement venue d'essayer de décrire le comportement des données. Au premier ordre, nous avons son emplacement - la moyenne. Au deuxième ordre, nous avons la dispersion - la covariance.

    Je suppose que le principal problème que j'ai avec la définition est de prendre la différence de la moyenne. Je n'arrive pas encore à me justifier cela.

    la diffusion est évaluée par rapport au centre de la distribution. La définition la plus élémentaire de la variance est «l'écart moyen par rapport à la moyenne». par conséquent, vous devez également soustraire la moyenne dans le cas de la covariance.

  2. Une autre motivation principale qui me vient à l'esprit est la nécessité de définir un moyen de mesurer la distance entre les variables aléatoires. La distance de Mahalanobis et la covariance vont de pair: étant donné une distribution gaussienne et deux autres échantillons qui ont une distance euclidienne égale à la moyenne de distribution. Si je vous demande lequel des échantillons est le plus susceptible d'être une valeur aberrante qui n'a pas été tirée de la distribution gaussienne, la distance euclidienne ne fera pas l'affaire. La distance de Mahalanobis a une seule différence notable par rapport à la distance euclidienne: elle prend en compte la dispersion (covariance) de la distribution. Cela vous permet de généraliser la distance aux variables aléatoires.

rhadar
la source
1
  1. Enfin, nous voulons que cette quantité de covariance soit nulle (ou extrêmement petite probablement?) Lorsque les deux variables sont indépendantes l'une de l'autre (c'est-à-dire qu'elles ne co-varient pas l'une par rapport à l'autre).

(12)XOuiE[XOui]E[XOui]=14X^=1000XOui^=1000OuiE[X^Oui^]=250,000(X,Oui)=E[(X-E[X])(Oui-E[Oui])]

  1. Nous voulons également qu'il ait un signe négatif lorsque deux variables aléatoires sont opposées (c'est-à-dire lorsque l'une augmente, l'autre variable aléatoire tend à diminuer)

Alors maintenant, considérons comme avant mais définissons . Il est très clair qu'à mesure qu'une variable augmente, l'autre diminue. Mais, alors que la définition standard cov donne une valeur négative comme vous le souhaitez.XOui=1-XE[XOui]=0(X,Oui)=E[(X-E[X])(Oui-E[Oui])]

  1. Il devrait (sic) avoir un signe positif lorsque deux variables aléatoires sont similaires (c'est-à-dire lorsque l'une augmente l'autre et que l'une diminue également).

Encore une fois, laissez être comme avant mais définissez maintenant . Il est très clair qu'à mesure qu'une variable augmente, l'autre augmente également. Mais, est négatif au lieu d'être positif comme vous le souhaitez, tandis que la définition standard cov donne une valeur positive juste comme vous le souhaitez.XOui=X-1E[XOui](X,Oui)=E[(X-E[X])(Oui-E[Oui])]

Enfin, la définition standard de covariance simplifie la définition de la variance lorsque .X=Oui

Dilip Sarwate
la source
1

Je me posais la même question, et l'intuition donnée par les conjectures m'a aidé. Pour visualiser l'intuition, j'ai pris deux vecteurs normaux aléatoires, x et y, tracé le nuage de points et coloré chaque point par le produit de leurs écarts par rapport à leurs moyennes respectives (bleu pour les valeurs positives, rouge pour les négatifs).

Comme le montre clairement le graphique, le produit est le plus positif dans les quadrants supérieur droit et inférieur gauche, tandis qu'il est le plus négatif dans les quadrants inférieur droit et supérieur gauche. L'effet de la somme des produits se traduirait par 0, car les points bleus annulent les rouges.

Mais vous pouvez voir que si nous supprimons les points rouges, les données restantes présentent une relation positive entre elles, qui est validée par la somme positive des produits (c'est-à-dire la somme des points bleus).

entrez la description de l'image ici

charleslow
la source
0

dans l'espace vectoriel des variables aléatoires, il est raisonnable de définir le carré de la distance entre deux variables aléatoires x et y avec E {(xy) ^ 2} maintenant par rapport à cette définition du produit scalaire de distance ou la relation des variables aléatoires sera E {xy} qui est tellement similaire à la définition de la covariance sauf les termes -E {x} et -E {y} qui sont pour le type de normalisation.

nima
la source