Cet article présente une puissante méthode de raisonnement qui évite beaucoup d'algèbre et de calcul. Pour ceux qui connaissent cette méthode, le travail est si automatique et naturel que la réponse initiale à une question comme celle-ci est "c'est évident!" Mais ce n'est peut-être pas si évident avant d'avoir vu la méthode. Par conséquent, tous les détails sont expliqués, étape par étape.
Contexte
Il existe plusieurs formules pour la variance des données x =X1,X2, … ,Xn (avec moyenne X¯= (X1+ ⋯ +Xn) / n), comprenant
Var( x ) =1n∑i = 1n(Xje-X¯)2=1n(∑i = 1nX2je) -X¯2.(1)
Cela détermine la covariance des données appariées (X1,y1) , … , (Xn,yn) via
Cov( x , y ) =14( Var( x + y ) - Var( x - y ) ) .
La formule impliquée dans le poste de covariance-avec-crayons référencé est
C( x , y ) =∑i = 1n - 1∑j = i + 1n(Xj-Xje) (yj-yje) =12∑i , j = 1n(Xj-Xje) (yj-yje) .(2)
Ce poste affirme Cest proportionnelle à la covariance. La constante de proportionnalitéc ( n ) pourrait (et varie) selon n. Ainsi, lorsquex = y une implication de cette affirmation est que
C( x , x ) = c ( n ) Var( x ) .
Une analyse
Bien que cela puisse être démontré avec l'algèbre de force brute, il existe un meilleur moyen: exploitons les propriétés fondamentales de la covariance. Quelles propriétés seraient-elles? Je voudrais suggérer que les éléments suivants sont basiques:
Indépendance de l'emplacement. C'est,
Cov( x , y ) = Cov( x - a , y )
pour n'importe quel nombre une. (L'expressionx - a fait référence à l'ensemble de données X1- a ,X2- a , … ,Xn- un.)
Multilinéarité. Cela implique
Cov( λx , y )=λCov( x , y )
pour n'importe quel nombre λ. (L'expressionλ x fait référence à l'ensemble de données λX1, λX2, … , ΛXn.)
Symétrie. La covariance deX et y est la covariance de y et X:
Cov( x , y ) = Cov( y , x ) .
Invariance sous permutations. La covariance ne change pas lorsque nous réindexons le(Xje,yje). Officiellement,
Cov( x , y ) = Cov(Xσ,yσ)
pour toute permutation σ∈Sn. (Des expressions commeXσ représenter la réorganisation du Xje selon σ, pour que Xσ=Xσ( 1 ),Xσ( 2 ), … ,Xσ( n ).)
Toutes ces propriétés valent évidemment pour les deuxVar et C d'inspecter les formes d'expressions (1) et (2). Le seul qui pourrait avoir besoin d'explication est l'indépendance de l'emplacement. Cependant, un décalage constant des valeursxi ne modifie ni les résidus ni les différences:
xi−x¯=(xi−a)−x−a¯¯¯¯¯¯¯¯¯¯¯¯
et
xj−xi=(xj−a)−(xi−a).
Par conséquent, il est en effet évident que la première version de (1) et (2) sont indépendants de l'emplacement.
Solution
Voici donc le raisonnement. Parce queCest symétrique et multilinéaire, c'est une forme quadratique complètement déterminée par des coefficientscij=cji:
C(x,y)=∑i,j=1ncijxiyj.
Parce qu'il est invariant par permutation, cij=ci′j′ pour tous les indices i,j,i′,j′ Pour qui i≠j et i′≠j′; aussi,cii=ci′i′ pour tous les indices i et i′. Donc,Cest déterminé par seulement deux nombres, disonsc11 et c12. Enfin, l'un de ces nombres détermine les deux autres grâce à l'invariance de localisation: cette condition signifie
0=C(0,0)=location-invarianceC(1,0)=symmetryC(0,1)=location-invarianceC(1,1)
(où "0" et "1"se réfèrent à constante n-vecteurs avec ces valeurs). Mais
0=C(1,1)=∑i,jncij=nc11+(n2−n)c12,
déterminer chacun
c11 et
c12 en termes de l'autre.
Cela prouve déjà le point principal: C doit être proportionnelle à Cov, puisque chacun est déterminé par l'un quelconque de leurs coefficients. Pour trouver la constante de proportionnalité, inspectez les deux formules(1) et (2), à la recherche de toutes les apparitions de x21: vous pouvez lire la valeur associée de c11d'eux. De la deuxième version de(1), le coefficient de x21 est clairement 1/n−(1/n)2. Depuis la première version de(2), avec y=x, le coefficient de x21 est clairement n−1. (Géométriquement, chaque point du nuage de points de(x,x) est associé à n−1 d'autres, d'où le carré de ses coordonnées apparaîtra n−1 fois.) Par conséquent
c(n)=n−11/n−(1/n)2=n2,
QED . Ce fut le seul calcul requis pour démontrer
Cov(x,y)=1n2C(x,y)=1n2∑i=1n−1∑j=i+1n(xj−xi)(yj−yi).