Supposons que est le vecteur qui maximise la variance de la projection des données avec la matrice de conception X .
Maintenant, j'ai vu des documents qui font référence à comme le (premier) composant principal des données, qui est également le vecteur propre avec la plus grande valeur propre.
Cependant, j'ai également vu que la principale composante des données est .
Évidemment, et et X u sont des choses différentes. Quelqu'un peut-il m'aider ici et me dire quelle est la différence entre ces deux définitions des principaux composants?
pca
terminology
definition
mon nom est Jeff
la source
la source
Réponses:
Vous avez tout à fait raison d'observer que même si (l'un des vecteurs propres de la matrice de covariance, par exemple le premier) et X u (projection des données sur le sous-espace à 1 dimension couvert par uu Xu u ) sont deux choses différentes, on les appelle souvent "composant principal", parfois même dans le même texte.
Résumé des deux conventions:
Remarque: Seuls les vecteurs propres de la matrice de covariance correspondant à des valeurs propres non nulles peuvent être appelés directions / composantes principales. Si la matrice de covariance est de bas rang, elle aura une ou plusieurs valeurs propres nulles; les vecteurs propres correspondants (et les projections correspondantes qui sont à zéro constant) ne doivent pas être appelés directions / composantes principales. Voir une discussion dans ma réponse ici.
la source