Après avoir fait l'ACP, le premier composant décrit la plus grande partie de la variabilité. Ceci est important, par exemple dans l'étude des mesures corporelles où il est communément connu (Jolliffe, 2002) que l'axe PC1 capture la variation de taille. Ma question est de savoir si les scores PCA après rotation varimax conservent les mêmes propriétés ou sont-ils différents comme mentionné dans cette rubrique ?
Étant donné que j'ai besoin de scores PCA pour d'autres analyses statistiques, je me demande si varimax est nécessaire et perturbe-t-il en fait la représentation de la variabilité réelle de l'échantillon afin que les scores individuels sur des axes tournés ne soient pas informatifs ou conduisent à une mauvaise interprétation de la réalité?
Quelqu'un pourrait-il également suggérer d'autres références sur ce sujet?
Workflows dans R:
- PCA (
FactoMineR
ouprcomp
) -> Extraire les scores individuels -> Entrer les scores dans lelm
- PCA (
FactoMiner
ouprcomp
) -> Varimax sur la matrice de charges -> calculer les scores individuels -> entrer les scores dans lelm
- FA (
psych
, méthode d'extraction varimax et pca) -> extraire les scores individuels -> Entrer les scores dans lelm
Maintenant, sans rotation (1), les pourcentages de variabilité expliquée sont à savoir 29,32, 5,6, 3,2, sur les trois premiers axes. 2. et 3. les solutions donnent des pourcentages similaires sur les trois premiers facteurs, c'est-à-dire 12.2, 12.1, 8.2. Bien sûr, la solution a tendance à pousser toutes les charges variables élevées sur le premier axe, tandis que les solutions 2. et 3. ont tendance à répartir les charges entre les axes (ce qui est la raison de la rotation). Je voulais savoir si ces trois workflows sont essentiels de la même manière car les scores individuels sont différents sur les axes tournés et non tournés?
la source
Réponses:
Les composantes principales normalisées (à la variance unitaire) après une rotation orthogonale, comme le varimax, sont simplement des composantes principales standardisées tournées (par «composante principale», j'entends les scores PC). Dans la régression linéaire, la mise à l'échelle des prédicteurs individuels n'a aucun effet et le remplacement des prédicteurs par leurs combinaisons linéaires (par exemple via une rotation) n'a aucun effet non plus. Cela signifie que l'utilisation de l'un des éléments suivants dans une régression:
conduirait exactement au même modèle de régression avec identiqueR2 , puissance prédictive, etc. (Les coefficients de régression individuels dépendront bien sûr du choix de normalisation et de rotation.)
La variance totale capturée par les PC bruts et par les PC en rotation est la même.
Cela répond à votre question principale. Cependant, vous devez être prudent avec vos flux de travail, car il est très facile de se perdre et de gâcher les calculs. La façon la plus simple d'obtenir des scores PC standardisés en rotation est d'utiliser la
psych::principal
fonction:Votre flux de travail # 2 peut être plus délicat que vous ne le pensez, car les chargements après rotation varimax ne sont pas orthogonaux, donc pour obtenir les scores, vous ne pouvez pas simplement projeter les données sur les chargements tournés. Voir ma réponse ici pour plus de détails:
Votre flux de travail # 3 est probablement également faux, du moins si vous vous référez à la
psych::fa
fonction. Il ne fait pas PCA; lafm="pa"
méthode d'extraction fait référence à la méthode du «facteur principal» qui est basée sur l'ACP, mais qui n'est pas identique à l'ACP (il s'agit d'une méthode itérative). Comme je l'ai écrit ci-dessus, vous devezpsych::principal
exécuter PCA.Voir ma réponse dans le fil suivant pour un compte rendu détaillé sur PCA et varimax:
la source