Comment interpréter les chargements PCA?

13

En lisant sur PCA, je suis tombé sur l'explication suivante:

Supposons que nous ayons un ensemble de données où chaque point de données représente les scores d'un seul élève à un test de mathématiques, un test de physique, un test de compréhension en lecture et un test de vocabulaire.

Nous trouvons les deux premiers composants principaux, qui capturent 90% de la variabilité des données, et interprétons leurs chargements. Nous concluons que la première composante principale représente la capacité académique globale, et la seconde représente un contraste entre la capacité quantitative et la capacité verbale.

Le texte indique que les charges PC1 et PC2 sont pour PC1 et ( 0,5 , 0,5 , - 0,5 , - 0,5 ) pour PC2, et propose l'explication suivante:(0.5,0.5,0.5,0.5)(0.5,0.5,0.5,0.5)

[L] e premier composant est proportionnel au score moyen, et le deuxième composant mesure la différence entre la première paire de scores et la deuxième paire de scores.

Je ne peux pas comprendre ce que cette explication signifie.

priyanka
la source
7
D'une manière ou d'une autre, la réponse de @ ttnphns va dans beaucoup de détails mathématiques, mais je pense que la question d'origine était vraiment simple: pourquoi le vecteur de charges pour PC1 de (0,5, 0,5, 0,5, 0,5) signifie que le premier composant est "proportionnel au score moyen" "? Eh bien, la réponse est que les charges sont [proportionnelles aux] coefficients dans la combinaison linéaire des variables originales qui composent PC1. Votre premier PC1 est donc la somme des quatre variables multipliée par 0,5. Ce qui signifie qu'il est proportionnel à la moyenne des quatre variables. Et similaire avec PC2. Je pense que cela répond à la question d'origine.
amibe dit Réintégrer Monica
@amoeba - Savez-vous combien il est difficile de trouver une explication aussi simple des chargements. D'une manière ou d'une autre, partout c'est une bouchée de bile de jargon sur moi avant que je décide de passer à l'explication suivante sur Google. Je vous remercie!
MiloMinderbinder

Réponses:

13

Les chargements (à ne pas confondre avec les vecteurs propres) ont les propriétés suivantes:

  1. Leurs sommes de carrés dans chaque composante sont les valeurs propres (variances des composantes).
  2. Les charges sont des coefficients en combinaison linéaire prédisant une variable par les composants (normalisés).

Vous avez extrait 2 premiers PC sur 4. Matrice des chargements et des valeurs propres:A

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

Dans ce cas, les deux valeurs propres sont égales. C'est un cas rare dans le monde réel, il dit que PC1 et PC2 sont de "force" explicative égale.

Supposons que vous ayez également calculé les valeurs des composants, la Nx2matrice et que vous les standardisiez z (moyenne = 0, dév. Standard = 1) dans chaque colonne. Ensuite (au point 2 dit ci - dessus), X = C A ' . Mais, comme vous n'avez laissé que 2 PC sur 4 (il vous manque 2 colonnes supplémentaires en A ), les valeurs de données restauréesCX^=CAAX^ ne sont pas exactes, - il y a une erreur (si 3, 4 valeurs propres ne sont pas nuls).

D'ACCORD. Quels sont les coefficients pour prédire les composants par variables ? Clairement, si était plein , ce serait B = ( A - 1 ) . Avec une matrice de chargement non carrée, nous pouvons les calculer comme B = A d i a g ( e i g e n v a l u e s ) - 1 = (A4x4B=(A1) , oùB=Adiag(eigenvalues)1=(A+)diag(eigenvalues)est la matrice diagonale carrée avec les valeurs propres sur sa diagonale, et en +exposant dénote pseudoinverse. Dans ton cas:

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

Donc, si est une matrice de variables centrées d'origine (ou des variables standardisées, si vous faites une ACP basée sur des corrélations plutôt que sur des covariances), alors C = X B ; C sont les scores normalisés des composantes principales. Dans votre exemple, qui est:XNx4C=XBC

PC1 = 0,5 * X1 + 0,5 * X2 + 0,5 * X3 + 0,5 * X4 ~ (X1 + X2 + X3 + X4) / 4

"la première composante est proportionnelle au score moyen"

PC2 = 0,5 * X1 + 0,5 * X2 - 0,5 * X3 - 0,5 * X4 = (0,5 * X1 + 0,5 * X2) - (0,5 * X3 + 0,5 * X4)

"le deuxième composant mesure la différence entre la première paire de scores et la deuxième paire de scores"

B=A


B=Adiag(eigenvalues)1B=R1ARétant la matrice de covariance (ou corrélation) des variables. Cette dernière formule provient directement de la théorie de la régression linéaire. Les deux formules sont équivalentes dans le contexte PCA uniquement. En analyse factorielle, ils ne le sont pas et pour calculer les scores factoriels (qui sont toujours approximatifs en FA), il faut s'appuyer sur la deuxième formule.


Mes réponses connexes:

Plus de détails sur les chargements par rapport aux vecteurs propres .

Comment les scores des composantes principales et les scores des facteurs sont calculés .

ttnphns
la source
2
Si 2 composantes sur 4 représentent 90% de la variabilité, comment se fait-il que leurs valeurs propres soient égales à 2?
Nick Cox
Nick, je crois que c'est une question pour le PO. Il n'a pas donné les données ou la matrice de covariance / corrélation. Tout ce que nous avions de lui, c'était une matrice de chargement (plutôt irréaliste) de 2 premiers PC.
ttnphns
3
Bon point, @Nick, ce n'est en effet pas possible, car la variance totale d'un 4×4 la matrice de corrélation doit être 4, donc deux PC avec des valeurs propres 1 doit tenir compte 50%de la variabilité. Je ne vous l'explique pas, bien sûr, mais pour d'autres lecteurs possibles de ce fil. La réponse de ttnphns reste correcte (+1), nous n'avons tout simplement pas d'autre choix que d'ignorer le nombre90%rapporté par le PO.
amibe dit Réintégrer Monica