Si et sont des variables aléatoires et et sont des constantes, alors
centrage est le cas spécial et , donc le centrage n'affecte pas la covariance.XYabCov(X+a,Y+b)=E[(X+a−E[X+a])(Y+b−E[Y+b])]=E[(X+a−E[X]−E[a])(Y+b−E[Y]−E[b])]=E[(X+a−E[X]−a)(Y+b−E[Y]−b)]=E[(X−E[X])(Y−E[Y])]=Cov(X,Y).
a=−E[X]b=−E[Y]
De plus, puisque la corrélation est définie comme
nous pouvons voir que
donc en particulier, la corrélation n'est pas affectée par le centrage non plus.Corr(X,Y)=Cov(X,Y)Var(X)Var(Y)−−−−−−−−−−−−√,
Corr(X+a,Y+b)=Cov(X+a,Y+b)Var(X+a)Var(Y+b)−−−−−−−−−−−−−−−−−−√=Cov(X,Y)Var(X)Var(Y)−−−−−−−−−−−−√,
C'était la version démographique de l'histoire. L'exemple de version est le même: si nous utilisons
comme estimation de la covariance entre et partir d'un échantillon apparié , puis
Covˆ(X,Y)=1n∑i=1n(Xi−1n∑j=1nXj)(Yi−1n∑j=1nYj)
XY(X1,Y1),…,(Xn,Yn)Covˆ(X+a,Y+b)=1n∑i=1n(Xi+a−1n∑j=1n(Xj+a))(Yi+b−1n∑j=1n(Yj+b))=1n∑i=1n(Xi+a−1n∑j=1nXj−nna)(Yi+b−1n∑j=1nYj−nnb)=1n∑i=1n(Xi−1n∑j=1nXj)(Yi−1n∑j=1nYj)=Covˆ(X,Y)
pour tout et .ab
La définition de la covariance de et est . L'expression dans la formule est la version centrée de . Nous centrons donc déjà lorsque nous prenons la covariance, et le centrage est un opérateur idempotent; une fois qu'une variable est centrée, appliquer le processus de centrage à plusieurs reprises ne la modifie pas. Si la formule ne prenait pas les versions centrées des variables, il y aurait toutes sortes d'effets étranges, tels que la covariance entre la température et une autre variable étant différente selon que nous mesurons la température en degrés Celsius ou Kelvin.X Y E[(X−E[X])(Y−E[Y])] X−E[X] X X
la source
"quelque part" tend à être une source peu fiable ...
La covariance / corrélation est définie avec un centrage explicite . Si vous ne centrez pas les données, vous ne calculez pas la covariance / corrélation. (Précisément: corrélation de Pearson)
La principale différence est de savoir si vous vous concentrez sur un modèle théorique (par exemple, la valeur attendue est supposée être exactement 0) ou sur la base des données (moyenne arithmétique). Il est facile de voir que la moyenne arithmétique produira une covariance plus petite que n'importe quel centre différent.
Cependant, une covariance plus petite n'implique pas une corrélation plus petite, ou l'inverse. Supposons que nous ayons des données X = (1,2) et Y = (2,1). Il est facile de voir qu'avec un centrage de la moyenne arithmétique, cela produira une corrélation parfaitement négative, alors que si nous savons que le processus de génération produit 0 en moyenne, les données sont en réalité positivement corrélées. Donc, dans cet exemple, nous centrons - mais avec la valeur théorique attendue de 0.
Cela peut survenir facilement. Considérons que nous avons un réseau de capteurs, 11x11, avec les cellules numérotées de -5 à +5. Plutôt que de prendre la moyenne arithmétique, il est logique d'utiliser ici la moyenne "physique" de notre réseau de capteurs lorsque nous recherchons la corrélation des événements de capteur (si nous énumérons les cellules 0 à 10, nous utiliserions 5 comme moyenne fixe, et nous obtiendrions exactement les mêmes résultats, de sorte que le choix d'indexation disparaît de l'analyse - sympa).
la source