J'essaie de comprendre certaines descriptions de l'ACP (les deux premières proviennent de Wikipedia), emphase ajoutée:
Les composants principaux ne sont garantis indépendants que si l'ensemble de données est distribué normalement conjointement .
L'indépendance des principaux composants est-elle très importante? Comment puis-je comprendre cette description?
L'ACP est sensible à la mise à l' échelle relative des variables d'origine.
Que signifie «mise à l'échelle»? Normalisation de différentes dimensions?
La transformation est définie de telle manière que le premier composant principal présente la plus grande variance possible et que chaque composant suivant présente à son tour la variance la plus élevée sous la contrainte d'être orthogonale aux composants précédents .
Pouvez-vous expliquer cette contrainte?
la source
Réponses:
Q1. Les composantes principales sont des variables mutuellement orthogonales (non corrélées). Orthogonalité et indépendance statistique ne sont pas synonymes . Les composants principaux n'ont rien de spécial; il en va de même pour toutes les variables dans l'analyse de données multivariées. Si les données sont normales à plusieurs variables (ce qui n'est pas la même chose que de déclarer que chacune des variables est univariellement normale) et que les variables ne sont pas corrélées, alors oui, elles sont indépendantes. Que l'indépendance des principaux composants importe ou non - dépend de la façon dont vous allez les utiliser. Assez souvent, leur orthogonalité suffira.
Q2. Oui, la mise à l'échelle signifie une diminution ou une extension de la variance des variables individuelles. Les variables sont les dimensions de l'espace dans lequel se trouvent les données. Les résultats de l'ACP - les composants - sont sensibles à la forme du nuage de données, à la forme de cet "ellipsoïde". Si vous centrez uniquement les variables, laissez les variances telles quelles, cela est souvent appelé "ACP basé sur les covariances". Si vous standardisez également les variables à variances = 1, cela est souvent appelé "PCA basé sur les corrélations", et il peut être très différent des premiers (voir un fil ). En outre, les gens effectuent relativement rarement l'APC sur des données non centrées: données brutes ou simplement mises à l'échelle de la grandeur unitaire; les résultats d'une telle ACP sont encore plus différents de l'endroit où vous centrez les données (voir une image ).
Q3. La "contrainte" est le fonctionnement de PCA (voir un énorme fil ). Imaginez que vos données soient un nuage tridimensionnel (3 variables, points); l'origine est fixée au centre de gravité (la moyenne) de celui-ci. L'ACP trace la composante 1 comme un tel axe à travers l'origine, la somme des projections au carré (coordonnées) sur laquelle est maximisée ; c'est-à-dire que la variance le long de la composante 1 est maximisée. Une fois le composant 1 défini, il peut être supprimé en tant que dimension, ce qui signifie que les points de données sont projetés sur le plan orthogonal à ce composant. Vous vous retrouvez avec un nuage à deux dimensions. Là encore, vous appliquez la procédure ci-dessus pour trouver l'axe de maximumn variance - maintenant dans ce nuage 2D résiduel. Et ce sera le composant2. Vous supprimez le composant dessiné2 du plan en projetant des points de données sur la ligne orthogonale à celui-ci. Cette ligne, représentant le nuage 1D restant, est définie comme le dernier composant, le composant 3. Vous pouvez voir que sur chacune de ces 3 "étapes", l'analyse a) a trouvé la dimension de la plus grande variance dans l' espace dimensionnel actuel , b) réduit les données aux dimensions sans cette dimension, c'est-à-dire à l' espace dimensionnel orthogonal à la dimension mentionnée. C'est ainsi qu'il s'avère que chaque composante principale est une "variance maximale" et que toutes les composantes sont mutuellement orthogonales (voir aussi ).p p−1
[ PS Veuillez noter que "orthogonal" signifie deux choses: (1) axes variables comme axes physiquement perpendiculaires; (2) variables non corrélées par leurs données. Avec l'ACP et certaines autres méthodes multivariées, ces deux choses sont la même chose. Mais avec certaines autres analyses (par exemple l'analyse discriminante), les variables latentes extraites non corrélées ne signifient pas automatiquement que leurs axes sont perpendiculaires dans l'espace d'origine.]
la source