En analyse en composantes principales (ACP), on peut choisir la matrice de covariance ou la matrice de corrélation pour trouver les composantes (à partir de leurs vecteurs propres respectifs). Ceux-ci donnent des résultats différents (chargements et scores PC), car les vecteurs propres entre les deux matrices ne sont pas égaux. Ma compréhension est que cela est dû au fait qu'un vecteur de données brutes et sa normalisation ne peuvent pas être liés via une transformation orthogonale. Mathématiquement, des matrices similaires (c'est-à-dire liées par transformation orthogonale) ont les mêmes valeurs propres, mais pas nécessairement les mêmes vecteurs propres.
Cela soulève quelques difficultés dans mon esprit:
L'ACP a-t-elle réellement un sens, si vous pouvez obtenir deux réponses différentes pour le même ensemble de données de départ, essayant toutes deux d'atteindre la même chose (= trouver des directions de variance maximale)?
Lorsque vous utilisez l'approche matricielle de corrélation, chaque variable est normalisée (mise à l'échelle) par son propre écart-type individuel, avant de calculer les PC. Comment, alors, est-il encore logique de trouver les directions de la variance maximale si les données ont déjà été mises à l'échelle / compressées différemment au préalable? Je sais que cette ACP basée sur la corrélation est très pratique (les variables standardisées sont sans dimension, donc leurs combinaisons linéaires peuvent être ajoutées; d'autres avantages sont également basés sur le pragmatisme), mais est-ce correct?
Il me semble que l'ACP basée sur la covariance est la seule vraiment correcte (même lorsque les variances des variables diffèrent considérablement), et que chaque fois que cette version ne peut pas être utilisée, l'ACP basée sur la corrélation ne devrait pas être utilisée non plus.
Je sais qu'il y a ce fil: PCA sur la corrélation ou la covariance? - mais il semble se concentrer uniquement sur la recherche d'une solution pragmatique, qui peut ou non être également une solution algébriquement correcte.
la source
Réponses:
J'espère que ces réponses à vos deux questions calmeront votre inquiétude:
Texte et images suivants ajoutés par @whuber (je le remercie. Voir aussi mon commentaire ci-dessous)
Voici un exemple en deux dimensions montrant pourquoi il est toujours logique de localiser les principaux axes des données standardisées (illustrées à droite). Notez que dans le graphique de droite, le nuage a toujours une "forme" même si les variances le long des axes de coordonnées sont maintenant exactement égales (à 1,0). De même, dans des dimensions supérieures, le nuage de points normalisé aura une forme non sphérique même si les variances le long de tous les axes sont exactement égales (à 1,0). Les axes principaux (avec leurs valeurs propres correspondantes) décrivent cette forme. Une autre façon de comprendre cela est de noter que tous les recadrages et décalages qui se produisent lors de la standardisation des variables se produisent uniquement dans les directions des axes de coordonnées et non dans les directions principales elles-mêmes.
Ce qui se passe ici est géométriquement si intuitif et clair qu'il serait difficile de caractériser cela comme une "opération de boîte noire": au contraire, la standardisation et l'ACP sont parmi les choses les plus élémentaires et routinières que nous faisons avec les données afin pour les comprendre.
Continué par @ttnphns
Quand préférerait-on effectuer l'ACP (ou l'analyse factorielle ou un autre type d'analyse similaire) sur les corrélations (c'est-à-dire sur des variables normalisées z) au lieu de le faire sur des covariances (c'est-à-dire sur des variables centrées)?
la source
Parlant d'un point de vue pratique - peut-être impopulaire ici - si vous avez des données mesurées à différentes échelles, optez pour la corrélation (`` échelle UV '' si vous êtes chimiométricien), mais si les variables sont à la même échelle et leur taille est importante (par exemple avec des données spectroscopiques), alors la covariance (centrage des données uniquement) a plus de sens. L'ACP est une méthode dépendante de l'échelle et la transformation des journaux peut également aider avec des données très asymétriques.
À mon humble avis, basé sur 20 ans d'application pratique de la chimiométrie, vous devez expérimenter un peu et voir ce qui fonctionne le mieux pour votre type de données. À la fin de la journée, vous devez être en mesure de reproduire vos résultats et essayer de prouver la prévisibilité de vos conclusions. Comment y arriver est souvent un cas d'essais et d'erreurs, mais l'important est que ce que vous faites soit documenté et reproductible.
la source
la source
There seems little point
en PCA sur les corrélations. Eh bien, si vous devez rester proche des données brutes ("données physiques", comme vous l'appelez étrangement), vous ne devriez vraiment pas utiliser de corrélations car elles correspondent à d'autres données ("déformées").X'X
matrice. Cette forme est même "plus proche" des données originales que cov-PCA car aucun centrage des variables n'est effectué. Et les résultats sont généralement complètement différents . Vous pouvez également faire du PCA sur des cosinus. Les gens font de l'ACP sur toutes les versions de la matrice SSCP , bien que les covariances ou corrélations soient utilisées le plus souvent.