J'essaie de comprendre la sortie de l'analyse des composants principaux effectuée comme suit:
> head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265
Rotation:
PC1 PC2 PC3 PC4
Sepal.Length 0.5210659 -0.37741762 0.7195664 0.2612863
Sepal.Width -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length 0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width 0.5648565 -0.06694199 -0.6342727 0.5235971
>
> summary(res)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion 0.7296 0.9581 0.99482 1.00000
>
J'ai tendance à conclure de la sortie ci-dessus:
La proportion de variance indique la part de variance totale dans la variance d'une composante principale particulière. Par conséquent, la variabilité PC1 explique 73% de la variance totale des données.
Les valeurs de rotation indiquées sont les mêmes que les «charges» mentionnées dans certaines descriptions.
En considérant les rotations de PC1, on peut conclure que Sepal.Length, Petal.Length et Petal.Width sont directement liés, et ils sont tous inversement liés à Sepal.Width (qui a une valeur négative en rotation de PC1)
Il peut y avoir un facteur dans les plantes (certains systèmes fonctionnels chimiques / physiques, etc.) qui peut affecter toutes ces variables (Sepal.Length, Petal.Length et Petal.Width dans un sens et Sepal.Width dans le sens opposé).
Si je veux montrer toutes les rotations dans un graphique, je peux montrer leur contribution relative à la variation totale en multipliant chaque rotation par la proportion de variance de cette composante principale. Par exemple, pour PC1, les rotations de 0,52, -0,26, 0,58 et 0,56 sont toutes multipliées par 0,73 (variance proportionnelle pour PC1, indiquée dans la sortie récapitulative (res).
Ai-je raison des conclusions ci-dessus?
Modifier concernant la question 5: Je veux afficher toutes les rotations dans un simple diagramme à barres comme suit:
Étant donné que PC2, PC3 et PC4 ont progressivement moins de contribution à la variation, est-il sensé d'y ajuster (réduire) les chargements des variables?
la source
Réponses:
prcomp
documentation , mais je ne sais pas pourquoi ils étiquettent cette partie de l'aspect "Rotation", car cela implique que les chargements ont été tournés en utilisant une méthode orthogonale (probable) ou oblique (moins probable).ggplot2
, je crois que cela se fait avec lealpha
esthétique), basé sur la proportion de variance expliquée par chaque composant (c.-à-d., plus de couleurs unies = plus de variance expliquée). Cependant, d'après mon expérience, votre chiffre n'est pas une manière typique de présenter les résultats d'une ACP - je pense qu'un tableau ou deux (chargements + variance expliqués dans un, corrélations des composants dans un autre) serait beaucoup plus simple.Références
Fabrigar, LR, Wegener, DT, MacCallum, RC et Strahan, EJ (1999). Évaluer l'utilisation de l'analyse factorielle exploratoire dans la recherche psychologique. Psychological Methods , 4 , 272-299.
Widaman, KF (2007). Facteurs communs versus composants: principes et principes, erreurs et idées fausses . Dans R. Cudeck & RC MacCallum (Eds.), Factor analysis at 100: Historic events and future directions (pp. 177-203). Mahwah, NJ: Lawrence Erlbaum.
la source
la source