L'analyse en composantes principales (ACP) peut être utilisée pour la réduction de la dimensionnalité. Une fois cette réduction de dimension effectuée, comment peut-on reconstruire approximativement les variables / entités d'origine à partir d'un petit nombre de composants principaux?
Sinon, comment peut-on supprimer ou écarter plusieurs composants principaux des données?
En d'autres termes, comment inverser la PCA?
Étant donné que la PCA est étroitement liée à la décomposition en valeurs singulières (SVD), la même question peut être posée comme suit: comment inverser la SVD?
Réponses:
PCA calcule les vecteurs propres de la matrice de covariance ("axes principaux") et les trie en fonction de leurs valeurs propres (quantité de variance expliquée). Les données centrées peuvent ensuite être projetées sur ces axes principaux pour produire des composantes principales ("scores"). Aux fins de la réduction de la dimensionnalité, il est possible de ne conserver qu'un sous-ensemble de composants principaux et d'éliminer le reste. (Voir ici pour l'introduction d' un profane à la PCA .)
Soit la matrice de données avec lignes (points de données) et colonnes (variables ou entités). Après avoir soustrait le vecteur moyen de chaque ligne, nous obtenons la centrée matrice de données . Soit la matrice de certains vecteurs propres que nous voulons utiliser; ce sont le plus souvent les vecteurs propres avec les plus grandes valeurs propres. Alors la matrice des projections PCA ("scores") sera simplement donnée par . n×pnpXraw n×p n p μ X V p×k k k n×k Z=XV
Ceci est illustré sur la figure ci-dessous: la première sous-parcelle affiche des données centrées (les mêmes que celles que j'utilise dans mes animations dans le fil lié) et ses projections sur le premier axe principal. La deuxième sous-parcelle ne montre que les valeurs de cette projection; la dimensionnalité a été réduite de deux à un:
Afin de pouvoir reconstituer les deux variables d'origine à partir de cette composante principale, nous pouvons le relier à dimensions avec . En effet, les valeurs de chaque PC doivent être placées sur le même vecteur que celui utilisé pour la projection; compare les sous-parcelles 1 et 3. Le résultat est alors donné par . Je l'affiche sur la troisième intrigue secondaire ci-dessus. Pour obtenir la reconstruction finale , nous devons ajouter le vecteur moyen à celui-ci:p V⊤ X^=ZV⊤=XVV⊤ X^raw μ
Notez que l'on peut aller directement de la première sous-parcelle à la troisième en multipliant avec la matrice ; cela s'appelle une matrice de projection . Si tous les vecteurs propres sont utilisés, alors est la matrice identité (aucune réduction de dimensionnalité n’est effectuée, la "reconstruction" est donc parfaite). Si seul un sous-ensemble de vecteurs propres est utilisé, ce n'est pas une identité.X VV⊤ p VV⊤
Cela fonctionne pour un point arbitraire dans l’espace PC; il peut être mappé sur l'espace d'origine via .z x^=zV⊤
Jeter (enlever) les principaux ordinateurs
Parfois, on veut jeter (enlever) un ou plusieurs des principaux ordinateurs et garder le reste, au lieu de garder les principaux et laisser de côté (comme ci-dessus). Dans ce cas, toutes les formules restent exactement les mêmes , mais devrait contenir tous les axes principaux à l' exception de ceux que l'on souhaite ignorer. En d'autres termes, devrait toujours inclure tous les PC que l'on veut garder.V V
Mise en garde à propos de la PCA sur la corrélation
Lorsque l'ACP est effectuée sur la matrice de corrélation (et non sur la matrice de covariance), les données brutes sont non seulement centrées en soustrayant mais également mises à l'échelle en divisant chaque colonne par son écart type . Dans ce cas, pour reconstruire les données d'origine, il faut redimensionner les colonnes de avec et ensuite seulement rajouter le vecteur moyen .Xraw μ σi X^ σi μ
Exemple de traitement d'image
Ce sujet est souvent abordé dans le contexte du traitement d'images. Considérez Lenna - l’une des images standard dans la littérature sur le traitement des images (suivez les liens pour trouver sa provenance). Ci-dessous, à gauche, la variante en niveaux de gris de cette image (fichier disponible ici ).512×512
Nous pouvons traiter cette image en niveaux de gris comme une matrice de données . J'exécute la PCA et calcule utilisant les 50 premiers composants principaux. Le résultat est affiché à droite.512×512 Xraw X^raw
Revenir en SVD
La PCA est très étroitement liée à la décomposition en valeurs singulières (SVD), voir Relation entre la SVD et la PCA. Comment utiliser SVD pour effectuer une PCA? pour plus de détails. Si une matrice est SVD-ed sous la forme , on sélectionne un vecteur de dimension qui représente le point dans l' espace "réduit". de dimensions, puis pour le mapper à dimensions, il faut le multiplier par .n×p X X=USV⊤ k z U k p S⊤1:k,1:kV⊤:,1:k
Exemples dans R, Matlab, Python et Stata
Je vais effectuer une ACP sur les données de l’iris de Fisher , puis la reconstruire en utilisant les deux premières composantes principales. Je fais de la PCA sur la matrice de covariance, pas sur la matrice de corrélation, c’est-à-dire que je ne mets pas à l’échelle les variables ici. Mais je dois encore ajouter la moyenne en arrière. Certains paquets, comme Stata, s'en occupent grâce à la syntaxe standard. Merci à @StasK et @Kodiologist pour leur aide concernant le code.
Nous allons vérifier la reconstruction du premier point de donnée, qui est:
Matlab
Sortie:
R
Sortie:
Voir aussi la réponse ci-dessous pour un exemple R reconstitué de reconstruction d'images en PCA .
Python
Sortie:
Notez que cela diffère légèrement des résultats dans d'autres langues. En effet, la version Python du jeu de données Iris contient des erreurs .
Stata
la source
nComp