Pourquoi les scores des composantes principales ne sont-ils pas corrélés?

9

Supose est une matrice de données moyenne centrée. La matrice est , a valeurs propres distinctes et vecteurs propres , ... , qui sont orthogonaux.S = cov ( A ) m × m m s 1 s 2 s mAS=cov(A)m×mms1s2sm

Le ème composant principal (certaines personnes les appellent "scores") est le vecteur . En d' autres termes, il est une combinaison linéaire des colonnes de , où les coefficients sont les composantes du -ème vecteur propre de .z i = A s i A i Sizje=UNEsjeUNEjeS

Je ne comprends pas pourquoi et ne sont pas corrélés pour tous les . Cela découle-t-il du fait que et sont orthogonaux? Sûrement pas, car je peux facilement trouver une matrice et une paire de vecteurs orthogonaux tels que et sont corrélés.z j ij s i s j B x , y B x B yzjezjjejsjesjBX,yBXBy

Ernest A
la source
Une réponse connexe stats.stackexchange.com/a/110546/3277 .
ttnphns

Réponses:

7

zjezj=(UNEsje)(UNEsj)=sjeUNEUNEsj=(n-1)sjeSsj=(n-1)sjeλjsj=(n-1)λjsjesj=0.
amibe
la source
1
Mathématiques: quelle belle langue.
Néstor
4
Cela signifie que et z j sont orthogonaux. Sans corrélation signifie que cela doit être vrai: ( z i - ˉ z i ) ( z j - ˉ z j ) = 0 . Je suppose en quelque sorte que ˉ z i = ˉ z j = 0 , puis z i z j = 0 implique également qu'ils ne sont pas corrélés. zjezj(zje-z¯je)(zj-z¯j)=0z¯je=z¯j=0zjezj=0
Ernest A
2
Bon point, @Ernest. Les moyennes sont en effet nulles, car les données sont centrées sur la moyenne (selon votre hypothèse). Ensuite, toutes les projections doivent avoir une moyenne de zéro.
amibe
2
@Jubbles car , doncAA=(n-1)S. S=cov(UNE)=1n-1UNEUNEUNEUNE=(n-1)S
Ernest A
2
@Ernest, je n'ai pas pu résister à fournir une réponse ne contenant pas de texte, mais je devrais peut-être ajouter que la raison sous-jacente pour laquelle les PC ne sont pas corrélés est que leur matrice de covariance est donnée par dans la base des vecteurs propres, et dans cette base, S devient diagonal - - c'est tout l'intérêt de la composition par eigendec. SS
amibe