Le centrage signifie-t-il réduire la covariance?

11

En supposant que j'ai deux variables aléatoires non indépendantes et que je souhaite réduire la covariance entre elles autant que possible sans perdre trop de "signal", cela signifie-t-il que le centrage aide? J'ai lu quelque part que le centrage moyen réduit la corrélation d'un facteur significatif, donc je pense que cela devrait en faire de même pour la covariance.

correlation covariance random-vector lvdp
la source

30

Si et sont des variables aléatoires et et sont des constantes, alors centrage est le cas spécial et , donc le centrage n'affecte pas la covariance. $X$ $Y$ $a$ $b$

\begin{aligned} Cov (X + a, Y + b) & = E [(X + a - E [X + a]) (Y + b - E [Y + b])] \\ = E [(X + a - E [X] - E [a]) (Y + b - E [Y] - E [b])] \\ = E [(X + a - E [X] - a) (Y + b - E [Y] - b)] \\ = E [(X - E [X]) (Y - E [Y])] \\ = Cov (X, Y) . \end{aligned}

$\begin{aligned} \operatorname{Cov}(X + a, Y + b) &= E[(X + a - E[X + a])(Y + b - E[Y + b])] \\ &= E[(X + a - E[X] - E[a])(Y + b - E[Y] - E[b])] \\ &= E[(X + a - E[X] - a)(Y + b - E[Y] - b)] \\ &= E[(X - E[X])(Y - E[Y])] \\ &= \operatorname{Cov}(X, Y). \end{aligned}$

a = - E [X]

$a = -E[X]$

b = - E [Y]

$b = -E[Y]$

De plus, puisque la corrélation est définie comme nous pouvons voir que donc en particulier, la corrélation n'est pas affectée par le centrage non plus.

Corr (X, Y) = \frac{Cov (X, Y)}{\sqrt{Var (X) Var (Y)}},

$\operatorname{Corr}(X, Y) = \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X) \operatorname{Var}(Y)}},$

\begin{aligned} Corr (X + a, Y + b) & = \frac{Cov (X + a, Y + b)}{\sqrt{Var (X + a) Var (Y + b)}} \\ = \frac{Cov (X, Y)}{\sqrt{Var (X) Var (Y)}}, \end{aligned}

$\begin{aligned} \operatorname{Corr}(X + a, Y + b) &= \frac{\operatorname{Cov}(X + a, Y + b)}{\sqrt{\operatorname{Var}(X + a) \operatorname{Var}(Y + b)}} \\ &= \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X) \operatorname{Var}(Y)}}, \end{aligned}$

C'était la version démographique de l'histoire. L'exemple de version est le même: si nous utilisons comme estimation de la covariance entre et partir d'un échantillon apparié , puis

\hat{Cov} (X, Y) = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \frac{1}{n} \sum_{j = 1}^{n} X_{j}) (Y_{i} - \frac{1}{n} \sum_{j = 1}^{n} Y_{j})

$\widehat{\operatorname{Cov}}(X, Y) = \frac{1}{n} \sum_{i=1}^n \left(X_i - \frac{1}{n}\sum_{j=1}^n X_j\right)\left(Y_i - \frac{1}{n}\sum_{j=1}^n Y_j\right)$

X

$X$

Y

$Y$

(X_{1}, Y_{1}), \dots, (X_{n}, Y_{n})

$(X_1,Y_1), \ldots, (X_n,Y_n)$

\begin{aligned} \hat{Cov} (X + a, Y + b) & = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} + a - \frac{1}{n} \sum_{j = 1}^{n} (X_{j} + a)) (Y_{i} + b - \frac{1}{n} \sum_{j = 1}^{n} (Y_{j} + b)) \\ = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} + a - \frac{1}{n} \sum_{j = 1}^{n} X_{j} - \frac{n}{n} a) (Y_{i} + b - \frac{1}{n} \sum_{j = 1}^{n} Y_{j} - \frac{n}{n} b) \\ = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \frac{1}{n} \sum_{j = 1}^{n} X_{j}) (Y_{i} - \frac{1}{n} \sum_{j = 1}^{n} Y_{j}) \\ = \hat{Cov} (X, Y) \end{aligned}

$\begin{aligned} \widehat{\operatorname{Cov}}(X + a, Y + b) &= \frac{1}{n} \sum_{i=1}^n \left(X_i + a - \frac{1}{n}\sum_{j=1}^n (X_j + a)\right)\left(Y_i + b - \frac{1}{n}\sum_{j=1}^n (Y_j + b)\right) \\ &= \frac{1}{n} \sum_{i=1}^n \left(X_i + a - \frac{1}{n}\sum_{j=1}^n X_j - \frac{n}{n} a\right)\left(Y_i + b - \frac{1}{n}\sum_{j=1}^n Y_j - \frac{n}{n} b\right) \\ &= \frac{1}{n} \sum_{i=1}^n \left(X_i - \frac{1}{n}\sum_{j=1}^n X_j\right)\left(Y_i - \frac{1}{n}\sum_{j=1}^n Y_j\right) \\ &= \widehat{\operatorname{Cov}}(X, Y) \end{aligned}$ pour tout et .

a

$a$

b

$b$

Artem Mavrin
la source

Merci pour la réponse détaillée. Cela signifie-t-il que pour la covariance de l'échantillon, la taille de l'échantillon n'a pas non plus d'impact? c'est-à-dire que la réduction de la taille de l'échantillon ne réduit pas la covariance de l'échantillon?

lvdp

3

@lvdp Cela devrait probablement être une question distincte.

Accumulation

Une taille d'échantillon réduite ne peut venir qu'avec un échantillon différent. Un échantillon différent pourrait donc montrer une covariance différente. Mais comme la covariance de l'échantillon est définie comme une moyenne, la taille de l'échantillon est en principe mise à l'échelle.

Nick Cox

5

La définition de la covariance de et est . L'expression dans la formule est la version centrée de . Nous centrons donc déjà lorsque nous prenons la covariance, et le centrage est un opérateur idempotent; une fois qu'une variable est centrée, appliquer le processus de centrage à plusieurs reprises ne la modifie pas. Si la formule ne prenait pas les versions centrées des variables, il y aurait toutes sortes d'effets étranges, tels que la covariance entre la température et une autre variable étant différente selon que nous mesurons la température en degrés Celsius ou Kelvin. $X$ $Y$ $E[(X-E[X])(Y-E[Y])]$ $X-E[X]$ $X$ $X$

Accumulation
la source

3

"quelque part" tend à être une source peu fiable ...

La covariance / corrélation est définie avec un centrage explicite . Si vous ne centrez pas les données, vous ne calculez pas la covariance / corrélation. (Précisément: corrélation de Pearson)

La principale différence est de savoir si vous vous concentrez sur un modèle théorique (par exemple, la valeur attendue est supposée être exactement 0) ou sur la base des données (moyenne arithmétique). Il est facile de voir que la moyenne arithmétique produira une covariance plus petite que n'importe quel centre différent.

Cependant, une covariance plus petite n'implique pas une corrélation plus petite, ou l'inverse. Supposons que nous ayons des données X = (1,2) et Y = (2,1). Il est facile de voir qu'avec un centrage de la moyenne arithmétique, cela produira une corrélation parfaitement négative, alors que si nous savons que le processus de génération produit 0 en moyenne, les données sont en réalité positivement corrélées. Donc, dans cet exemple, nous centrons - mais avec la valeur théorique attendue de 0.

Cela peut survenir facilement. Considérons que nous avons un réseau de capteurs, 11x11, avec les cellules numérotées de -5 à +5. Plutôt que de prendre la moyenne arithmétique, il est logique d'utiliser ici la moyenne "physique" de notre réseau de capteurs lorsque nous recherchons la corrélation des événements de capteur (si nous énumérons les cellules 0 à 10, nous utiliserions 5 comme moyenne fixe, et nous obtiendrions exactement les mêmes résultats, de sorte que le choix d'indexation disparaît de l'analyse - sympa).

A QUIT - Anony-Mousse
la source

Merci @ Anony-Mousse, la covariance de l'échantillon dépendra-t-elle de la taille de l'échantillon? C'est-à-dire qu'une taille d'échantillon plus petite donnera une covariance plus petite (avant le centrage).

lvdp

1

Cela dépend évidemment de l'échantillon. En moyenne - je ne sais pas. Je m'attendrais à ce que des échantillons plus petits aient plus de variabilité, donc peut-être plus souvent des valeurs plus extrêmes. Mais ce n'est qu'une intuition.

A QUIT - Anony-Mousse

Le centrage signifie-t-il réduire la covariance?

Réponses: