Pourquoi l'inversion d'une matrice de covariance donne-t-elle des corrélations partielles entre variables aléatoires?

32

J'ai entendu dire que l'on pouvait trouver des corrélations partielles entre des variables aléatoires en inversant la matrice de covariance et en prenant les cellules appropriées à partir de cette matrice de précision résultante (ce fait est mentionné dans http://en.wikipedia.org/wiki/Partial_correlation , mais sans preuve). .

pourquoi est-ce le cas?

michal
la source
1
Si vous voulez obtenir une corrélation partielle dans une cellule contrôlée pour toutes les autres variables, le dernier paragraphe ici peut nous éclairer.
ttnphns

Réponses:

34

Quand une variable aléatoire multivariée a une matrice de covariance non dégénérée C = ( γ i j ) = ( Cov ( X i , X j ) ) , l’ensemble de toutes les combinaisons linéaires réelles des X i forme un espace vectoriel réel de dimension n avec la base E = ( X 1 , X 2 , ,(X1,X2,,Xn)C=(γij)=(Cov(Xi,Xj))Xin et un produit interne non dégénéré donné parE=(X1,X2,,Xn)

Xi,Xj=γij .

Sa base double par rapport à ce produit scalaire , , est défini de manière unique par les relationsE=(X1,X2,,Xn)

Xi,Xj=δij ,

le delta de Kronecker (égal à lorsque i = j et à 0 sinon).1i=j0

La double base est intéressante ici parce que la corrélation partielle de et X j est obtenue en tant que corrélation entre la partie de X i qui est laissée après l'avoir projetée dans l'espace parcouru par tous les autres vecteurs (appelons simplement cela " résiduel ", X i ) et la partie comparable de X j , son résidu X j . Pourtant, X i est un vecteur orthogonal à tous les vecteurs autres que X i et a un produit interne positif avec X i d'X iXiXjXiXiXjXjXiXiXi doit être un multiple non négatif de X * i , etmême pour X j . Laissez-nous donc écrireXiXiXj

Xi=λiXi, Xj=λjXj

pour les nombres réels positifs et λ j .λiλj

La corrélation partielle est le produit scalaire normalisé des résidus, qui reste inchangé par le rééchelonnement:

ρij=Xi,XjXi,XiXj,Xj=λiλjXi,Xjλi2Xi,Xiλj2Xj,Xj=Xi,XjXi,XiXj,Xj .

(Dans les deux cas, la corrélation partielle sera égale à zéro chaque fois que les résidus sont orthogonaux, qu'ils soient non nuls ou non.)

Nous devons trouver les produits intérieurs des éléments de base doubles. À cette fin, développez les éléments de base doubles par rapport à la base d'origine :E

Xi=j=1nβijXj .

Puis par définition

δik=Xi,Xk=j=1nβijXj,Xk=j=1nβijγjk .

En notation matricielle avec la matrice identité et B = ( β i j ) la matrice de changement de base, cela indiqueI=(δij)B=(βij)

I=BC .

C’est-à-dire que correspond exactement à ce que dit l’article de Wikipedia. La formule précédente pour la corrélation partielle donneB=C1

ρij=βijβiiβjj=Cij1Cii1Cjj1 .
whuber
la source
3
+1, bonne réponse. Mais pourquoi appelez-vous cette double base «double base en ce qui concerne ce produit intérieur» - que signifie exactement «en ce qui concerne ce produit intérieur»? Il semble que vous utilisez le terme « double base » tel que défini ici mathworld.wolfram.com/DualVectorSpace.html au deuxième alinéa ( «Étant donné une base espace vectoriel pour V il existe une base double ... ") ou ici en.wikipedia.org/wiki/Dual_basis , et il est indépendant de tout produit scalaire. v1,...,vnV
amibe dit de réintégrer Monica
3
@ amoeba Il existe deux types de duels. Le (naturel) double d'un espace vectoriel sur un champ R est l'ensemble des fonctions linéaires de : V R , appelé V * . Il n'y a pas de manière canonique pour identifier V * avec V , même si elles ont la même dimension lorsque V est de dimension finie. Tout produit intérieur γ correspond à une telle carte g : V V , et inversement , via g ( v ) ( w )VRϕ:VRVVVVγg:VV(La non-dégénérescence de γ garantit que g est un isomorphisme d'espace vectoriel.) Cela permet de visualiser les éléments de V comme s'ils étaient des éléments du dual V ∗ - mais cela dépend de γ .
g(v)(w)=γ(v,w).
γgVVγ
whuber
3
@mpettis Ces points étaient difficiles à remarquer. Je les ai remplacés par de petits cercles ouverts pour faciliter la lecture de la notation. Merci de l'avoir signalé.
whuber
4
Les réponses aux questions complexes d' Andy Ron Christensen peuvent être le genre de chose que vous recherchez. Malheureusement, son approche repose (à mon humble avis) sur des arguments et des calculs de coordonnées. Dans l’introduction originale (voir p. Xiii), Christensen explique que c’est pour des raisons pédagogiques.
whuber
3
@ Whuber, votre preuve est géniale. Je me demande si un livre ou un article contient une telle preuve que je puisse citer.
Harry
12

Voici une preuve avec juste des calculs matriciels.

J'apprécie la réponse de Whuber. C'est très perspicace sur le calcul derrière la scène. Cependant, comment utiliser sa réponse pour obtenir le signe moins dans la formule indiquée dans wikipedia Partial_correlation # Using_matrix_inversion n’est toujours pas si trivial .

ρXiXjV{Xi,Xj}=pijpiipjj

Pour obtenir ce signe moins, voici une preuve différente trouvée dans «Graphical Models Lauriten 1995 Page 130». Cela se fait simplement par des calculs matriciels.

(ABCD)1=(E1E1GFE1D1+FE1G)
E=ABD1CF=D1CG=BD1

Ω=(Ω11Ω12Ω21Ω22)
Ω11(Xi,Xj)Ω22V{Xi,Xj}

Soit . De même, écrivez P comme P = ( P 11 P 12 P 21 P 22 )P=Ω1P

P=(P11P12P21P22)

Par l'identité de la matrice de clés,

P111=Ω11Ω12Ω221Ω21

Ω11Ω12Ω221Ω21(Xi,Xj)|V{Xi,Xj}

ρXiXjV{Xi,Xj}=[P111]12[P111]11[P111]22.
(k,l)M[M]kl

([P111]11[P111]12[P111]21[P111]22)=P111=1detP11([P11]22[P11]12[P11]21[P11]11)

ρXiXjV{Xi,Xj}=[P111]12[P111]11[P111]22=1detP11[P11]121detP11[P11]221detP11[P11]11=[P11]12[P11]22[P11]11
Po C.
la source
Si nous laissons i=j, alors rho_ii V\{X_i, X_i} = -1, comment interprétons-nous ces éléments diagonaux dans la matrice de précision?
Jason
Bon point. La formule ne devrait être valable que pour i = / = j. De la preuve, le signe moins provient de l'inversion de la matrice 2 sur 2. Cela ne se produirait pas si i = j.
Po C.
Ainsi, les nombres diagonaux ne peuvent pas être associés à une corrélation partielle. Que représentent-ils? Ce ne sont pas juste des inverses des variances, n'est-ce pas?
Jason
Cette formule est valable pour i = / = j. Cela n'a pas de sens pour i = j.
Po C.
4

XiXjn1XiXjn2ϵiϵjρϵiϵjρ

Cela explique la confusion dans les commentaires ci-dessus, ainsi que sur Wikipedia. La deuxième définition est utilisée universellement d'après ce que je peux dire, il devrait donc y avoir un signe négatif.

J'ai initialement posté une modification sur l'autre réponse, mais j'ai commis une erreur - désolée pour ça!

Johnny Ho
la source