En analyse en composantes principales (ACP), nous obtenons des vecteurs propres (vecteurs unitaires) et des valeurs propres. Maintenant, définissons les charges comme
Je sais que les vecteurs propres ne sont que des directions et que les chargements (tels que définis ci-dessus) incluent également la variance dans ces directions. Mais pour ma meilleure compréhension, j'aimerais savoir où je devrais utiliser des chargements plutôt que des vecteurs propres? Un exemple serait parfait!
En général, je n'ai vu que des gens utiliser des vecteurs propres, mais de temps en temps, ils utilisent des chargements (tels que définis ci-dessus), puis j'ai le sentiment que je ne comprends pas vraiment la différence.
R
utilisateurs de ce site ont appelé les "vecteurs propres" de la PCA, qui pourraient probablement provenir de la documentation de la fonction.Il semble y avoir beaucoup de confusion au sujet des charges, des coefficients et des vecteurs propres. Les mots chargés proviennent de l'analyse factorielle et font référence aux coefficients de régression de la matrice de données sur les facteurs. Ce ne sont pas les coefficients définissant les facteurs. Voir, par exemple, Mardia, Bibby et Kent ou d’autres manuels de statistiques multivariés.
Ces dernières années, les mots chargés ont été utilisés pour indiquer les coefficients de PC. Ici, il semble que cela indiquait les coefficients multipliés par le sqrt des valeurs propres de la matrice. Ce ne sont pas des quantités couramment utilisées en PCA. Les composantes principales sont définies comme la somme des variables pondérées par les coefficients de la norme unitaire. De cette manière, les PC ont une norme égale à la valeur propre correspondante, laquelle est égale à la variance expliquée par la composante.
C'est dans l'analyse factorielle que les facteurs doivent avoir une norme d'unité. Mais FA et PCA sont complètement différents. La rotation du coefficient de PC est très rarement effectuée car cela détruit l'optimalité des composants.
En FA, les facteurs ne sont pas définis de manière unique et peuvent être estimés de différentes manières. Les quantités importantes sont les charges (les vraies) et les communalités utilisées pour étudier la structure de la matrice de covariance. PCA ou PLS doivent être utilisés pour estimer les composants.
la source
L
qui est utilisée pour écrire la matrice de covariance sous la formeS = LL' + C
oùC
est une matrice diagonale. ils n'ont rien à voir avec les coefficients des PC.they have nothing to do with the PCs' coefficients
Nous calculons les chargements dans PCA comme nous le faisons dans FA. Les modèles sont différents mais la signification des chargements est similaire dans les deux méthodes.Loadings = Vecteurs propres orthonormaux⋅ Racine carrée de (valeurs propres absolues) Ici, les vecteurs propres orthonormaux (c.-à-d. Le terme vecteurs propres orthonormaux) fournissent une direction et le terme racine carrée de (valeurs propres absolues) fournit la valeur.
D'habitude, les gens disent que les panneaux dans les charges ne sont pas importants, mais que leur ampleur est importante. Mais si nous inversons la direction d'un vecteur propre (en gardant le signe des autres vecteurs propres tels qu'ils sont), les scores des facteurs seront modifiés. Par conséquent, l'analyse ultérieure sera affectée de manière significative.
Je n'ai pas pu trouver de solution satisfaisante à cette ambiguïté jusqu'à présent.
la source
Il semble y avoir une certaine confusion à ce sujet. Je vais donc présenter quelques observations et indiquer un point sur lequel une excellente réponse peut être trouvée dans la littérature.
En premier lieu, l’ACP et l’analyse factorielle (AF) sont liées. En général, les composantes principales sont orthogonales par définition, alors que les facteurs - l'entité analogue dans FA - ne le sont pas. En termes simples, les composantes principales couvrent l’espace factoriel de manière arbitraire mais pas nécessairement utile car elles sont dérivées de l’analyse propre pure des données. Les facteurs, en revanche, représentent des entités du monde réel qui sont seulement orthogonales (c'est-à-dire non corrélées ou indépendantes) par hasard.
Supposons que nous prenions les observations de chacun des l sujets. Celles-ci peuvent être organisées en une matrice de données D ayant s lignes et l colonnes. D peut être décomposé en une matrice de score S et une matrice de chargement L telles que D = SL . S aura s lignes, et L aura l colonnes, la deuxième dimension de chacune étant le nombre de facteurs n . L’analyse factorielle a pour but de décomposer D de manière à révéler les scores et les facteurs sous-jacents. Les chargements en L nous indiquent la proportion de chaque score qui constituent les observations D .
En ACP, L a les vecteurs propres de la matrice de corrélation ou de covariance de D comme colonnes. Celles-ci sont classiquement classées par ordre décroissant des valeurs propres correspondantes. La valeur de n - c’est-à-dire le nombre de composantes principales significatives à retenir dans l’analyse, et donc le nombre de lignes de L - est généralement déterminée par le biais d’un scree plot des valeurs propres ou de l’une des nombreuses autres méthodes disponibles dans la littérature. Les colonnes de S dans PCA forment les n composantes principales abstraites elles-mêmes. La valeur de n est la dimensionnalité sous-jacente de l'ensemble de données.
L'objet de l' analyse factorielle est de transformer les composants abstraits en facteurs significatifs par l'utilisation d'une matrice de transformation T de telle sorte que D = STT -1 L . ( ST ) est la matrice de scores transformée et ( T -1 L ) est la matrice de chargement transformée.
L'explication ci-dessus suit grossièrement la notation d'Edmund R. Malinowski tirée de son excellente analyse factorielle en chimie . Je recommande fortement les premiers chapitres en guise d'introduction au sujet.
la source
Je suis un peu dérouté par ces noms, et j'ai cherché dans le livre intitulé "Méthodes statistiques dans la science atmosphérique", et cela m'a donné un résumé de la terminologie variée de la PCA, voici les captures d'écran du livre, espérons que cela vous aidera.
la source