Peut-on utiliser la régression multiple pour prédire un composant principal (PC) à partir de plusieurs autres PC?

15

Il y a quelque temps, un utilisateur de la liste de diffusion R-help a posé des questions sur la validité de l'utilisation des scores PCA dans une régression. L'utilisateur essaie d'utiliser des scores PC pour expliquer les variations sur un autre PC (voir la discussion complète ici ). La réponse était que non, ce n'est pas valable car les PC sont orthogonaux les uns aux autres.

Quelqu'un peut-il expliquer un peu plus en détail pourquoi il en est ainsi?

Roman Luštrik
la source
1
Pourquoi avez-vous mis une rétiquette et que voulez-vous dire par "pourquoi en est-il ainsi"? Les PC ne sont pas corrélés, c'est-à-dire qu'ils sont orthogonaux, additifs, vous ne pouvez pas prédire un PC avec un autre. Vous recherchez une formule?
aL3xa
Je me posais des questions sur les principes de la logique (dans ma quête pour comprendre l'APC). J'ai utilisé la balise R parce que les gens R pourraient lire ceci et peut-être montrer des exemples R. :)
Roman Luštrik
Oh, pourquoi tu ne l'as pas dit? Avez-vous vu statmethods.net/advstats/factor.html
aL3xa

Réponses:

11

Une composante principale est une combinaison linéaire pondérée de tous vos facteurs (X).

exemple: PC1 = 0,1X1 + 0,3X2

Il y aura une composante pour chaque facteur (bien qu'en général un petit nombre soit sélectionné).

Les composants sont créés de telle sorte qu'ils ont une corrélation nulle (sont orthogonaux), par conception.

Par conséquent, le composant PC1 ne doit expliquer aucune variation du composant PC2.

Vous voudrez peut-être faire une régression sur votre variable Y et la représentation PCA de vos X, car ils n'auront pas de multicolinéarité. Cependant, cela pourrait être difficile à interpréter.

Si vous avez plus de X que d'observations, ce qui casse l'OLS, vous pouvez régresser sur vos composants et sélectionner simplement un plus petit nombre des composants à plus forte variation.

Analyse en composantes principales par Jollife un livre très approfondi et très cité sur le sujet

C'est aussi bon: http://www.statsoft.com/textbook/principal-components-factor-analysis/

Neil McGuigan
la source
11

Les composants principaux sont orthogonaux par définition, donc toute paire de PC aura une corrélation nulle.

Cependant, l'ACP peut être utilisée en régression s'il existe un grand nombre de variables explicatives. Ceux-ci peuvent être réduits à un petit nombre de composantes principales et utilisés comme prédicteurs dans une régression.

Rob Hyndman
la source
Ne serait-ce pas FA alors?
Roman Luštrik
3
Non. FA n'est pas une régression. Je fais référence à une variable de réponse régressée par rapport aux principales composantes calculées à partir d'un grand nombre de variables explicatives. Les principales composantes elles-mêmes sont étroitement liées aux facteurs de FA.
Rob Hyndman
Je suis désolé, j'aurais dû être plus précis dans mon commentaire. Votre écriture selon laquelle les variables explicatives peuvent être réduites à un petit nombre de PC a sonné la cloche de "l'analyse factorielle".
Roman Luštrik
Dans l'ensemble avec n variables, n PC peuvent être extraits, mais vous pouvez décider combien vous souhaitez conserver, par exemple le critère de Guttman-Keizer dit: gardez tous les PC qui ont une valeur propre (variance) supérieure à 1. Donc là .. .
aL3xa
7

Attention ... juste parce que les PC sont par construction orthogonaux les uns aux autres ne signifie pas qu'il n'y a pas de motif ou qu'un PC ne peut pas sembler "expliquer" quelque chose sur les autres PC.

Prenons les données 3D (X, Y, Z) décrivant un grand nombre de points répartis uniformément sur la surface d'un football américain (c'est un ellipsoïde - pas une sphère - pour ceux qui n'ont jamais regardé le football américain). Imaginez que le football soit dans une configuration arbitraire de sorte que ni X, ni Y, ni Z ne se trouvent le long de l'axe long du football.

Les composants principaux placeront PC1 le long de l'axe long du ballon de football, l'axe qui décrit le plus de variance dans les données.

Pour tout point de la dimension PC1 le long de l'axe long du ballon de football, la tranche plane représentée par PC2 et PC3 doit décrire un cercle et le rayon de cette tranche circulaire dépend de la dimension PC1. Il est vrai que les régressions de PC2 ou PC3 sur PC1 devraient donner un coefficient zéro globalement, mais pas sur de plus petites sections du football ... et il est clair qu'un graphique 2D de PC1 et PC2 montrerait une limite limite "intéressante" qui est à deux valeurs, non linéaire et symétrique.

Paul
la source
3

Si vos données sont de grande dimension et bruyantes, et que vous n'avez pas un grand nombre d'échantillons, vous courez le risque de sur-adapter. Dans de tels cas, il est logique d'utiliser l'ACP (qui peut capturer une partie dominante de la variance des données; l'orthogonalité n'est pas un problème) ou l'analyse factorielle (qui peut trouver les vraies variables explicatives sous-jacentes aux données) pour réduire la dimensionnalité des données, puis former un modèle de régression avec eux.

Pour les approches basées sur l'analyse factorielle, voir ce document , Modèle de régression des facteurs bayésiens , et une version bayésienne non paramétrique de ce modèle qui ne suppose pas que vous connaissez a priori le nombre "réel" de facteurs pertinents (ou des principaux composants dans le cas de l'ACP).

J'ajouterais que dans de nombreux cas, la réduction supervisée de la dimensionnalité (par exemple, Fisher Discriminant Analysis ) peut apporter des améliorations par rapport aux approches simples basées sur PCA ou FA, car vous pouvez utiliser les informations d'étiquette tout en réduisant la dimensionnalité.

ébène1
la source
0

vous pouvez le retirer si le score PC prédit a été extrait de différentes variables, ou cas, que les scores PC prédicteurs. si tel est le cas prévu et si le prédicteur ne sera pas orthogonal, ou du moins il ne doit pas l'être, la corrélation n'est bien sûr pas garantie.

Tomas Boncompte
la source