En lisant sur PCA, je suis tombé sur l'explication suivante:
Supposons que nous ayons un ensemble de données où chaque point de données représente les scores d'un seul élève à un test de mathématiques, un test de physique, un test de compréhension en lecture et un test de vocabulaire.
Nous trouvons les deux premiers composants principaux, qui capturent 90% de la variabilité des données, et interprétons leurs chargements. Nous concluons que la première composante principale représente la capacité académique globale, et la seconde représente un contraste entre la capacité quantitative et la capacité verbale.
Le texte indique que les charges PC1 et PC2 sont pour PC1 et ( 0,5 , 0,5 , - 0,5 , - 0,5 ) pour PC2, et propose l'explication suivante:
[L] e premier composant est proportionnel au score moyen, et le deuxième composant mesure la différence entre la première paire de scores et la deuxième paire de scores.
Je ne peux pas comprendre ce que cette explication signifie.
Réponses:
Les chargements (à ne pas confondre avec les vecteurs propres) ont les propriétés suivantes:
Vous avez extrait 2 premiers PC sur 4. Matrice des chargements et des valeurs propres:A
Dans ce cas, les deux valeurs propres sont égales. C'est un cas rare dans le monde réel, il dit que PC1 et PC2 sont de "force" explicative égale.
Supposons que vous ayez également calculé les valeurs des composants, laC X^=CA′ A X^ ne sont pas exactes, - il y a une erreur (si 3, 4 valeurs propres ne sont pas nuls).
Nx2
matrice et que vous les standardisiez z (moyenne = 0, dév. Standard = 1) dans chaque colonne. Ensuite (au point 2 dit ci - dessus), X = C A ' . Mais, comme vous n'avez laissé que 2 PC sur 4 (il vous manque 2 colonnes supplémentaires en A ), les valeurs de données restauréesD'ACCORD. Quels sont les coefficients pour prédire les composants par variables ? Clairement, si était plein , ce serait B = ( A - 1 ) ′ . Avec une matrice de chargement non carrée, nous pouvons les calculer comme B = A ⋅ d i a g ( e i g e n v a l u e s ) - 1 = (A B=(A−1)′ , oùB=A⋅diag(eigenvalues)−1=(A+)′
4x4
diag(eigenvalues)
est la matrice diagonale carrée avec les valeurs propres sur sa diagonale, et en+
exposant dénote pseudoinverse. Dans ton cas:Donc, si est une matrice de variables centrées d'origine (ou des variables standardisées, si vous faites une ACP basée sur des corrélations plutôt que sur des covariances), alors C = X B ; C sont les scores normalisés des composantes principales. Dans votre exemple, qui est:X C=XB C
Nx4
Mes réponses connexes:
Plus de détails sur les chargements par rapport aux vecteurs propres .
Comment les scores des composantes principales et les scores des facteurs sont calculés .
la source