Questions sur PCA: quand les PC sont-ils indépendants? pourquoi PCA est-il sensible à la mise à l'échelle? pourquoi les PC sont-ils contraints d'être orthogonaux?

11

J'essaie de comprendre certaines descriptions de l'ACP (les deux premières proviennent de Wikipedia), emphase ajoutée:

Les composants principaux ne sont garantis indépendants que si l'ensemble de données est distribué normalement conjointement .

L'indépendance des principaux composants est-elle très importante? Comment puis-je comprendre cette description?

L'ACP est sensible à la mise à l' échelle relative des variables d'origine.

Que signifie «mise à l'échelle»? Normalisation de différentes dimensions?

La transformation est définie de telle manière que le premier composant principal présente la plus grande variance possible et que chaque composant suivant présente à son tour la variance la plus élevée sous la contrainte d'être orthogonale aux composants précédents .

Pouvez-vous expliquer cette contrainte?

kakanana
la source
3
# 2 ne s'applique que si l'ACP est réalisée par la composition de la matrice de covariance par eigendec. Si elle est effectuée par composition de la matrice de corrélation, alors l'ACP est insensible à la mise à l'échelle.
Alexis
@Alexis Merci pour votre message. Pour le numéro 2, cela vous dérangerait-il d'expliquer ce que cela signifie? le changement dynamique de la dimension correspondante des données?
kakanana
1
"Mise à l'échelle" peut signifier plusieurs choses. (1) Cela peut signifier des transformations linéaires de données , telles que , où et ; ou (2) que les variables individuelles dans sont toutes mesurées sur la même échelle et ont des variances de taille proche. Mon commentaire s'applique à ces deux sens. XX=a+bX<a<0<b<X
Alexis

Réponses:

21

Q1. Les composantes principales sont des variables mutuellement orthogonales (non corrélées). Orthogonalité et indépendance statistique ne sont pas synonymes . Les composants principaux n'ont rien de spécial; il en va de même pour toutes les variables dans l'analyse de données multivariées. Si les données sont normales à plusieurs variables (ce qui n'est pas la même chose que de déclarer que chacune des variables est univariellement normale) et que les variables ne sont pas corrélées, alors oui, elles sont indépendantes. Que l'indépendance des principaux composants importe ou non - dépend de la façon dont vous allez les utiliser. Assez souvent, leur orthogonalité suffira.

Q2. Oui, la mise à l'échelle signifie une diminution ou une extension de la variance des variables individuelles. Les variables sont les dimensions de l'espace dans lequel se trouvent les données. Les résultats de l'ACP - les composants - sont sensibles à la forme du nuage de données, à la forme de cet "ellipsoïde". Si vous centrez uniquement les variables, laissez les variances telles quelles, cela est souvent appelé "ACP basé sur les covariances". Si vous standardisez également les variables à variances = 1, cela est souvent appelé "PCA basé sur les corrélations", et il peut être très différent des premiers (voir un fil ). En outre, les gens effectuent relativement rarement l'APC sur des données non centrées: données brutes ou simplement mises à l'échelle de la grandeur unitaire; les résultats d'une telle ACP sont encore plus différents de l'endroit où vous centrez les données (voir une image ).

Q3. La "contrainte" est le fonctionnement de PCA (voir un énorme fil ). Imaginez que vos données soient un nuage tridimensionnel (3 variables, points); l'origine est fixée au centre de gravité (la moyenne) de celui-ci. L'ACP trace la composante 1 comme un tel axe à travers l'origine, la somme des projections au carré (coordonnées) sur laquelle est maximisée ; c'est-à-dire que la variance le long de la composante 1 est maximisée. Une fois le composant 1 défini, il peut être supprimé en tant que dimension, ce qui signifie que les points de données sont projetés sur le plan orthogonal à ce composant. Vous vous retrouvez avec un nuage à deux dimensions. Là encore, vous appliquez la procédure ci-dessus pour trouver l'axe de maximumnvariance - maintenant dans ce nuage 2D résiduel. Et ce sera le composant2. Vous supprimez le composant dessiné2 du plan en projetant des points de données sur la ligne orthogonale à celui-ci. Cette ligne, représentant le nuage 1D restant, est définie comme le dernier composant, le composant 3. Vous pouvez voir que sur chacune de ces 3 "étapes", l'analyse a) a trouvé la dimension de la plus grande variance dans l' espace dimensionnel actuel , b) réduit les données aux dimensions sans cette dimension, c'est-à-dire à l' espace dimensionnel orthogonal à la dimension mentionnée. C'est ainsi qu'il s'avère que chaque composante principale est une "variance maximale" et que toutes les composantes sont mutuellement orthogonales (voir aussi ).pp1

[ PS Veuillez noter que "orthogonal" signifie deux choses: (1) axes variables comme axes physiquement perpendiculaires; (2) variables non corrélées par leurs données. Avec l'ACP et certaines autres méthodes multivariées, ces deux choses sont la même chose. Mais avec certaines autres analyses (par exemple l'analyse discriminante), les variables latentes extraites non corrélées ne signifient pas automatiquement que leurs axes sont perpendiculaires dans l'espace d'origine.]

ttnphns
la source
+1 (il y a longtemps). Les futurs lecteurs voudront peut-être également lire les réponses à cette question: pourquoi les principaux composants des ACP (vecteurs propres de la matrice de covariance) sont-ils mutuellement orthogonaux? - il est marqué comme un double de celui-ci, mais contient des réponses utiles.
amoeba
@ttnphns Dans le PS, vous avez écrit "ces deux choses sont la même chose". Je trouve le libellé quelque peu déroutant. Si je pense à l'ACP comme un changement de base, dire que la nouvelle base est orthogonale n'est pas la même chose que dire que les nouvelles fonctionnalités (c'est-à-dire après le changement de base) ne sont pas corrélées (je pourrais peut-être trouver une autre base orthogonale de sorte que les nouvelles fonctionnalités sont corrélées). Je me rends compte que l'ACP garantit à la fois que les PC ne sont pas corrélés et que les axes principaux sont orthogonaux, mais pourquoi ces choses sont-elles les mêmes?
Oren Milman
@ttnphns également, il serait peut-être utile de créer un lien vers cette réponse ? Cela m'a aidé à dissiper une certaine confusion en ce qui concerne l'orthogonalité vs la non-corrélation des variables aléatoires, car selon certaines définitions, elles sont les mêmes, et selon certaines définitions, elles ne sont les mêmes que pour les variables centrées.
Oren Milman
@orenmn, merci pour vos commentaires sur l'orthogonalité. Dans ma note de bas de page, cependant, je parlais de l'orthogonalité des axes , pas des vecteurs de données. Veuillez suivre le lien que j'ai donné pour démontrer.
ttnphns