Je lis un article dans lequel l'auteur élimine plusieurs variables en raison d'une corrélation élevée avec d'autres variables avant de procéder à la PCA. Le nombre total de variables est d'environ 20.
Est-ce que cela donne des avantages? Cela me semble être une surcharge, car la PCA devrait gérer cela automatiquement.
correlation
pca
type 2
la source
la source
Réponses:
Ceci explique l'explication fournie dans un commentaire de @ttnphns.
Les variables presque corrélées adjacentes augmentent la contribution de leur facteur sous-jacent commun à l'APC. Nous pouvons voir cela géométriquement. Considérez ces données dans le plan XY, représentées par un nuage de points:
Il y a peu de corrélation, une covariance à peu près égale, et les données sont centrées: la CPA (quelle que soit la manière dont elle a été menée) rendrait compte de deux composantes à peu près égales.
Ajoutons maintenant une troisième variable égale à plus une petite quantité d’erreur aléatoire. La matrice de corrélation de montre cela avec les petits coefficients non diagonaux sauf entre les deuxième et troisième lignes et les colonnes ( et ):Z Y (X,Y,Z) Y Z
Géométriquement, nous avons déplacé presque verticalement tous les points d'origine, soulevant ainsi l'image précédente hors du plan de la page. Ce pseudo nuage de points 3D tente d'illustrer l'élévation avec une vue en perspective latérale (basée sur un jeu de données différent, bien que généré de la même manière que précédemment):
Les points se situent à l'origine dans le plan bleu et sont levés vers les points rouges. L' axe origine est vers la droite. L'inclinaison qui en résulte étend également les points le long des directions YZ, doublant ainsi leur contribution à la variance. Par conséquent, une ACP de ces nouvelles données identifierait toujours deux composantes principales principales, mais l'une d'elles présentera désormais une variabilité deux fois plus grande que l'autre.Y
Cette attente géométrique est confirmée par quelques simulations dansX2 X5
R
. Pour cela, j'ai répété la procédure de "levage" en créant des copies quasi-colinéaires de la deuxième variable une deuxième, troisième, quatrième et cinquième fois, en les nommant à . Voici une matrice de diagrammes de dispersion montrant comment ces quatre dernières variables sont bien corrélées:La PCA utilise des corrélations (même si peu importe pour ces données), en utilisant les deux premières variables, puis trois, ... et enfin cinq. Je présente les résultats à l'aide de graphiques représentant les contributions des principales composantes à la variance totale.
Initialement, avec deux variables presque non corrélées, les contributions sont presque égales (coin supérieur gauche). Après avoir ajouté une variable corrélée à la seconde - exactement comme dans l'illustration géométrique -, il ne reste plus que deux composants principaux, l'un deux fois plus grand que l'autre. (Une troisième composante reflète l’absence de corrélation parfaite; elle mesure «l’épaisseur» du nuage en forme de pancake dans le diagramme de dispersion 3D.) Après l’ajout d’une autre variable corrélée ( ), la première composante représente maintenant environ les trois quarts du total. ; après l'ajout d'un cinquième, le premier composant représente près des quatre cinquièmes du total. Dans les quatre cas, les composants après le second seraient probablement considérés comme sans importance par la plupart des procédures de diagnostic de la PCA; dans le dernier cas c'estX4 une composante principale à considérer.
Nous pouvons maintenant voir qu’il serait peut-être avantageux d’écarter des variables censées mesurer le même aspect sous-jacent (mais "latent") d’un ensemble de variables , car l’inclusion des variables presque redondantes peut amener l’APC à surestimer leur contribution. Il n'y a rien mathématiquement juste (ou faux) dans une telle procédure; c'est un jugement qui repose sur les objectifs analytiques et la connaissance des données. Mais il devrait être très clair que le fait de mettre de côté des variables dont on sait qu’elles sont fortement corrélées avec d’autres peut avoir un effet substantiel sur les résultats de l’ACP.
Voici le
R
code.la source
Je vais illustrer plus en détail le même processus et la même idée que @whuber, mais avec les tracés de chargement, car les chargements sont l’essentiel des résultats de l’ACP.
Voici trois 3 analyses. Dans la première, nous avons deux variables, et (dans cet exemple, elles ne sont pas corrélées). Dans le second, nous avons ajouté qui est presque une copie de et est donc fortement corrélé avec lui. Dans le troisième, nous avons également ajouté de la même façon deux "copies" : et .X1 X2 X3 X2 X4 X5
Les tracés de chargements des 2 premiers composants principaux vont alors. Les pics rouges sur les graphiques indiquent les corrélations entre les variables, de sorte que le groupe de plusieurs pics est l'endroit où se trouve un groupe de variables étroitement corrélées. Les composants sont les lignes grises; la "force" relative d'un composant (sa grandeur de valeur propre) est donnée par le poids de la ligne.
On peut observer deux effets de l’ajout des "copies":
Je ne reprendrai pas la morale car @whuber l'a déjà fait.
Addition2. En addition ci - dessus , je parlais de « l' espace variable » et « espace sujet » comme si elles sont incompatibles ensemble comme l' eau et l' huile. Je devais le reconsidérer et peut dire que - du moins lorsque nous parlons de PCA - les deux espaces sont finalement isomorphes et que, de ce fait, nous pouvons afficher correctement tous les détails de la PCA - points de données, axes de variables, axes de composants, variables comme points, - sur un seul biplot non déformé.
Vous trouverez ci-dessous le diagramme de dispersion (espace variable) et le graphique de chargement (espace composant, qui est l'espace sujet par son origine génétique). Tout ce qui pourrait être montré sur l'un, pourrait également être montré sur l'autre. Les images sont identiques , elles ne pivotent que de 45 degrés (et sont réfléchies dans ce cas particulier) les unes par rapport aux autres. C’était une ACP de variables v1 et v2 (normalisée, c’est donc r qui a été analysée). Les lignes noires sur les images sont les variables en tant qu'axes; les lignes vertes / jaunes sont les composants en tant qu'axes; les points bleus sont le nuage de données (sujets); les points rouges sont les variables affichées sous forme de points (vecteurs).
la source
The software was free to choose any orthogonal basis for that space, arbitrarily
s’applique aux nuages ronds dans l’ espace variable (c’est-à-dire le diagramme de dispersion des données, comme la 1ère image de votre réponse), mais le tracé de chargement correspond à l’ espace sujet où les variables, et non les observations, sont des points (vecteurs).Sans les détails de votre document, je supposerais que cette suppression de variables hautement corrélées a été réalisée simplement pour économiser de la puissance de calcul ou de la charge de travail. Je ne vois pas pourquoi l'ACP se "casserait" pour les variables fortement corrélées. La projection des données sur les bases trouvées par PCA a pour effet de les blanchir (ou de les décorréler). C’est l’essentiel de l’ACP.
la source
A ma connaissance, les variables corrélées sont acceptables, car la PCA génère des vecteurs orthogonaux.
la source
Cela dépend de votre algorithme. Les variables fortement corrélées peuvent signifier une matrice mal conditionnée. Si vous utilisez un algorithme qui est sensible à cela, cela peut avoir un sens. Mais j'ose dire que la plupart des algorithmes modernes utilisés pour générer des valeurs propres et des vecteurs propres sont robustes à cet égard. Essayez de supprimer les variables fortement corrélées. Les valeurs propres et les vecteurs propres changent-ils beaucoup? S'ils le font, alors le mauvais conditionnement pourrait être la solution. Les variables hautement corrélées n’ajoutant pas d’informations, la décomposition PCA ne doit pas changer.
la source
Cela dépend de la méthode de sélection des composants principaux que vous utilisez, n'est-ce pas?
J'ai tendance à utiliser n'importe quel composant de principe avec une valeur propre> 1. Cela ne m'affecterait donc pas.
Et à partir des exemples ci-dessus, même la méthode du scree plot choisirait généralement la bonne. SI VOUS GARDEZ TOUT AVANT LE COUDE. Cependant, si vous sélectionniez simplement le composant principal avec la valeur propre «dominante», vous seriez égaré. Mais ce n'est pas la bonne façon d'utiliser une parcelle de terrain!
la source