Il y a quelque temps, un utilisateur de la liste de diffusion R-help a posé des questions sur la validité de l'utilisation des scores PCA dans une régression. L'utilisateur essaie d'utiliser des scores PC pour expliquer les variations sur un autre PC (voir la discussion complète ici ). La réponse était que non, ce n'est pas valable car les PC sont orthogonaux les uns aux autres.
Quelqu'un peut-il expliquer un peu plus en détail pourquoi il en est ainsi?
regression
pca
Roman Luštrik
la source
la source
r
étiquette et que voulez-vous dire par "pourquoi en est-il ainsi"? Les PC ne sont pas corrélés, c'est-à-dire qu'ils sont orthogonaux, additifs, vous ne pouvez pas prédire un PC avec un autre. Vous recherchez une formule?Réponses:
Une composante principale est une combinaison linéaire pondérée de tous vos facteurs (X).
exemple: PC1 = 0,1X1 + 0,3X2
Il y aura une composante pour chaque facteur (bien qu'en général un petit nombre soit sélectionné).
Les composants sont créés de telle sorte qu'ils ont une corrélation nulle (sont orthogonaux), par conception.
Par conséquent, le composant PC1 ne doit expliquer aucune variation du composant PC2.
Vous voudrez peut-être faire une régression sur votre variable Y et la représentation PCA de vos X, car ils n'auront pas de multicolinéarité. Cependant, cela pourrait être difficile à interpréter.
Si vous avez plus de X que d'observations, ce qui casse l'OLS, vous pouvez régresser sur vos composants et sélectionner simplement un plus petit nombre des composants à plus forte variation.
Analyse en composantes principales par Jollife un livre très approfondi et très cité sur le sujet
C'est aussi bon: http://www.statsoft.com/textbook/principal-components-factor-analysis/
la source
Les composants principaux sont orthogonaux par définition, donc toute paire de PC aura une corrélation nulle.
Cependant, l'ACP peut être utilisée en régression s'il existe un grand nombre de variables explicatives. Ceux-ci peuvent être réduits à un petit nombre de composantes principales et utilisés comme prédicteurs dans une régression.
la source
Attention ... juste parce que les PC sont par construction orthogonaux les uns aux autres ne signifie pas qu'il n'y a pas de motif ou qu'un PC ne peut pas sembler "expliquer" quelque chose sur les autres PC.
Prenons les données 3D (X, Y, Z) décrivant un grand nombre de points répartis uniformément sur la surface d'un football américain (c'est un ellipsoïde - pas une sphère - pour ceux qui n'ont jamais regardé le football américain). Imaginez que le football soit dans une configuration arbitraire de sorte que ni X, ni Y, ni Z ne se trouvent le long de l'axe long du football.
Les composants principaux placeront PC1 le long de l'axe long du ballon de football, l'axe qui décrit le plus de variance dans les données.
Pour tout point de la dimension PC1 le long de l'axe long du ballon de football, la tranche plane représentée par PC2 et PC3 doit décrire un cercle et le rayon de cette tranche circulaire dépend de la dimension PC1. Il est vrai que les régressions de PC2 ou PC3 sur PC1 devraient donner un coefficient zéro globalement, mais pas sur de plus petites sections du football ... et il est clair qu'un graphique 2D de PC1 et PC2 montrerait une limite limite "intéressante" qui est à deux valeurs, non linéaire et symétrique.
la source
Si vos données sont de grande dimension et bruyantes, et que vous n'avez pas un grand nombre d'échantillons, vous courez le risque de sur-adapter. Dans de tels cas, il est logique d'utiliser l'ACP (qui peut capturer une partie dominante de la variance des données; l'orthogonalité n'est pas un problème) ou l'analyse factorielle (qui peut trouver les vraies variables explicatives sous-jacentes aux données) pour réduire la dimensionnalité des données, puis former un modèle de régression avec eux.
Pour les approches basées sur l'analyse factorielle, voir ce document , Modèle de régression des facteurs bayésiens , et une version bayésienne non paramétrique de ce modèle qui ne suppose pas que vous connaissez a priori le nombre "réel" de facteurs pertinents (ou des principaux composants dans le cas de l'ACP).
J'ajouterais que dans de nombreux cas, la réduction supervisée de la dimensionnalité (par exemple, Fisher Discriminant Analysis ) peut apporter des améliorations par rapport aux approches simples basées sur PCA ou FA, car vous pouvez utiliser les informations d'étiquette tout en réduisant la dimensionnalité.
la source
vous pouvez le retirer si le score PC prédit a été extrait de différentes variables, ou cas, que les scores PC prédicteurs. si tel est le cas prévu et si le prédicteur ne sera pas orthogonal, ou du moins il ne doit pas l'être, la corrélation n'est bien sûr pas garantie.
la source