Quelle est la mesure d'association appropriée d'une variable avec une composante PCA (sur un tracé biplot / chargement)?

Explication d'un tracé de chargement de l'analyse PCA ou factorielle.

Le graphique de chargement affiche les variables sous forme de points dans l'espace des principaux composants (ou facteurs). Les coordonnées des variables sont généralement les chargements. (Si vous combinez correctement le tracé de chargement avec le nuage de points correspondant des cas de données dans le même espace de composants, ce serait un tracé double).

Ayons 3 variables corrélées en quelque sorte, , , . Nous centrons eux et exécutons PCA , extraire 2 premières composantes principales des trois: et . Nous utilisons les chargements comme coordonnées pour faire le tracé de chargement ci-dessous. Les charges sont les éléments des vecteurs propres non normalisés, c'est-à-dire les vecteurs propres dotés de variances de composants correspondantes, ou valeurs propres. $V$ $W$ $U$ $F_1$ $F_2$

enter image description here

Le tracé de chargement est l'avion sur l'image. Considérons seule variable . La flèche habituellement tracée sur un tracé de chargement est ce que nous appelons ici ; les coordonnées , sont les chargements de avec et , respectivement (sachez que terminologiquement est plus correct de dire "le composant charge une variable", et non l'inverse). $V$ $h'$ $a_1$ $a_2$ $V$ $F_1$ $F_2$

Flèche est la projection, sur le plan composante, du vecteur qui est la position réelle de la variable dans les variables de l'espace engendré par , , . La longueur au carré du vecteur, est la variance d' de . Alors que est la partie de cette variance expliquée par les deux composantes. $h'$ $h$ $V$ $V$ $W$ $U$ $h^2$ $\bf^a$ $V$ $h'^2$

Chargement, corrélation, corrélation projetée . Puisque les variables étaient centrées avant l'extraction des composants, est la corrélation de Pearson entre et la composante . Cela ne doit pas être confondu avec sur la courbe de chargement, qui est une autre quantité: il s'agit de la corrélation de Pearson entre la composante et la variable vectorisée ici comme . En tant que variable, est la prédiction de par les composantes (normalisées) en régression linéaire (comparer avec le dessin de la géométrie de régression linéaire ici $\cos \phi$ $V$ $F_1$ $\cos \alpha$ $F_1$ $h'$ $h'$ $V$ ) où les chargements sont les coefficients de régression (lorsque les composants sont maintenus orthogonaux, tels qu'ils sont extraits). $a$

Plus loin. On peut rappeler (trigonométrie) que . Il peut être compris comme le produit scalaire entre le vecteur et le vecteur de longueur unitaire : . est fixé à ce vecteur unité-variance car il n'a pas sa propre variance en dehors de cette variance de qu'il explique (par le montant ): soit $a_1 = h \cdot \cos \phi$ $V$ $F_1$ $h \cdot 1 \cdot \cos \phi$ $F_1$ $V$ $h'$ $F_1$ est une entité extraite de V, W, U et non une entité invitée de l'extérieur. Alors, clairement, est lacovarianceentreetnormalisé, à l'échelle unitaire(pour définir $a_1 = \sqrt{var_{V} \cdot var_{F_1}} \cdot r = h \cdot 1 \cdot \cos \phi$ $V$ $\bf^b$ ) composante. Cette covariance est directement comparable aux covariances entre les variables d'entrée; par exemple, la covariance entreetsera le produit de leurs longueurs vectorielles multipliées par le cosinus entre elles. $s_1=\sqrt{var_{F_1}}=1$ $F_1$ $V$ $W$

Pour résumer: le chargement d' peut être vu comme la covariance entre la composante normalisée et la variable observée, , ou de manière équivalente entre la composante normalisée et l'image expliquée (par toutes les composantes définissant le tracé) de l'image variable, . Ce pourrait être appelé corrélation V-F1 projetée sur le sous-espace des composants F1-F2. $a_1$ $h \cdot 1 \cdot \cos \phi$ $h' \cdot 1 \cdot \cos \alpha$ $\cos \alpha$

La corrélation susmentionnée entre une variable et un composant, , est également appelée chargement normalisé ou redimensionné . Il est pratique dans l'interprétation des composants car il se situe dans la plage [-1,1]. $\cos \phi = a_1/h$

Relation avec les vecteurs propres . Le chargement redimensionné ne doit pas être confondu avec l' élément vecteur propre qui - comme nous le savons - est le cosinus de l'angle entre une variable et une composante principale. Rappelons que le chargement est un élément de vecteur propre mis à l'échelle par la valeur singulière du composant (racine carrée de la valeur propre). C'est-à-dire pour la variable de notre tracé: , où est la st. écart (non pas mais original, c'est-à-dire la valeur singulière) de $\cos \phi$ $V$ $a_1= e_1s_1$ $s_1$ $1$ $F_1$ variable latente. Il arrive alors que l'élément vecteur propre , pas lelui-même. La confusion autour de deux mots "cosinus" se dissout lorsque nous nous souvenons du type de représentation spatiale dans laquelle nous nous trouvons. La valeur du vecteur propreest lecosinusde l'angle de rotationd'une variable comme axe en pr. composant comme axe dans un espace variable (également appelé nuage de points),comme ici. Alors quesur notre graphique de chargementest la mesure de similitude cosinusentre une variable comme vecteur et un pr. composant aussi bien ... comme vecteur aussi, si vous le souhaitez (bien qu'il soit dessiné comme axe sur le tracé), - car nous sommes actuellement dans l'espace sujet $e_1= \frac{a_1}{s_1}=\frac{h}{s_1}\cos \phi$ $\cos \phi$ $\cos \phi$ (quel est le tracé de chargement) où les variables corrélées sont des fans de vecteurs - pas des axes orthogonaux, - et les angles vectoriels sont la mesure de l'association - et non de la rotation de la base spatiale.

Alors que le chargement est la mesure d'association angulaire (c'est-à-dire le type de produit scalaire) entre une variable et un composant à l'échelle unitaire, et le chargement redimensionné est le chargement normalisé où l'échelle de la variable est réduite à l'unité non plus, mais le coefficient de vecteur propre est le chargement où le le composant est «trop standardisé», c'est-à-dire qu'il a été porté à l'échelle (plutôt que 1); alternativement, il peut être considéré comme un chargement redimensionné où l'échelle de la variable a été portée à (au lieu de 1). $1/s$ $h/s$

Alors, quelles sont les associations entre une variable et un composant? Vous pouvez choisir ce que vous aimez. Il peut s'agir du chargement (covariance avec composante à l'échelle unitaire) ; le chargement redimensionné (= corrélation à composantes variables); corrélation entre l'image (prédiction) et la composante (= corrélation projetée ). Vous pouvez même choisir le coefficient de vecteur propre si vous en avez besoin (bien que je me demande quelle pourrait être la raison). Ou inventez votre propre mesure. $a$ $\cos \phi$ $\cos \alpha$ $e= a/s$

La valeur du vecteur propre au carré a la signification de la contribution d'une variable dans un pr. composant. Le chargement redimensionné au carré a la signification de la contribution d'un pr. composant dans une variable.

Relation avec l'ACP basée sur les corrélations. Si nous analysions PCA non seulement les variables centrées mais normalisées (centrées puis à l'échelle de la variance unitaire), alors les trois vecteurs variables (et non leurs projections sur le plan) seraient de la même longueur unitaire. Il s'ensuit alors automatiquement qu'un chargement est une corrélation , et non une covariance, entre une variable et un composant. Mais cette corrélation ne sera pas égale au "chargement normalisé" de l' image ci-dessus (basé sur l'analyse de variables simplement centrées), car l'ACP des variables normalisées (ACP basée sur les corrélations) produit des composants différents de l'APC des variables centrées ( ACP basée sur les covariances). Dans l'ACP basée sur la corrélation $\cos \phi$ parce que , mais les composantes principalesnesontpas les mêmescomposantes principales quecellesque nous obtenons de l'ACP basée sur des covariances (lire,lire). $a_1= \cos \phi$ $h=1$

Dans l' analyse factorielle , le tracé de chargement a fondamentalement le même concept et la même interprétation que dans l'ACP. La seule différence (mais importante ) est la substance de . En analyse factorielle, - appelé alors "communalité" de la variable - est la partie de sa variance qui s'explique par des facteurs communs qui sont spécifiquement responsables des corrélations entre variables. En PCA, la partie expliquée $h'$ $h'$ $h'$ est un «mélange» brut - il représente en partie la corrélation et en partie la non-corrélation entre les variables. Avec l'analyse factorielle, le plan des chargements sur notre image serait orienté différemment (en fait, il s'étendra même hors de l'espace de nos variables 3D dans la 4ème dimension, que nous ne pouvons pas dessiner; le plan des chargements ne sera pas un sous-espace de notre Espace 3D couvert par et les deux autres variables), et la projection sera d'une autre longueur et d'un autre angle . (La différence théorique entre l'ACP et l'analyse factorielle est expliquée géométriquement ici via la représentation de l'espace sujet et ici via la représentation de l'espace variable.) $V$ $h'$ $\alpha$

Une réponse à la demande de @Antoni Parellada dans les commentaires. Il est équivalent que vous préfériez parler en termes devarianceou en termes dedispersion(SS d'écart): variance = scatter, oùest la taille de l'échantillon. Parce que nous avons affaire à un ensemble de données avec le même, la constante ne change rien dans les formules. Siest les données (avec les variables V, W, centrées sur U), alors la composition propre de sa matrice de covariance (A) donne les mêmes valeurs propres (variances des composants) et vecteurs propres que la composition propre de la matrice de dispersion (B) $\bf^{a,b}$ $/(n-1)$ $n$ $n$ $\bf X$ $\bf X'X$ $\bf X$ $\sqrt{n-1}$ $a_1 = h \cdot s_1 \cdot \cos \phi$ $h$ $\sqrt{var_{V}}$ $\Vert V \Vert$ $s_1$ $1$ $F_1$ $\sqrt{var_{F_1}}$ in (A) but root scatter $\Vert F_1 \Vert$ in (B). Finally, $\cos \phi = r$ is the correlation which is insensitive to the usage of $n-1$ in its calculations. Thus, we simply speak conceptually of variances (A) or of scatters (B), while the values themselves remain the same in the formula in both instances.

ttnphns
la source

This answer is great and has a lot of info, but I think the actual answer to the question would lie in "what does

α

$\alpha$ mean?"

shadowtalker

@ssdecontrol, I added a line regarding that.

ttnphns

I have been reading your posts on the topic, and I'm stuck on seemingly the most obvious part, when you say... "clearly,

a_{1} = \sqrt{v a r_{V} \cdot v a r_{F 1}} \cdot r = h \cdot 1 \cdot \cos ϕ

$a_1 = \sqrt{var_{V} \cdot var_{F1}} \cdot r = h \cdot 1 \cdot \cos \phi$ . Since

r = c o s ϕ

$r=cos\phi$ and

\sqrt{v a r F 1} = 1

$\sqrt{var{F1}}=1$ , it follows that

\sqrt{v a r_{V}} = h

$\sqrt{var_V}=h$ . However,

h = ‖ V ‖ = \sqrt{\sum x^{2}}

$h=\Vert V\Vert= \sqrt{\sum x^2}$ , whereas

\sqrt{v a r_{V}} = \sqrt{\frac{\sum x^{2}}{n - 1}}

$\sqrt{var_V}=\sqrt{\frac{\sum x^2}{n-1}}$ . What am I missing?

Antoni Parellada

@AntoniParellada, please check the footnote.

ttnphns

I read your addendum, and it is very illuminating. Thank you! Without picking out specific sentences, it would explain some of the transitions from unit-variance to unit norm scaling of

F_{1}

$F_1$ along the answer, which previously presented some difficulty (to me).

Antoni Parellada

Quelle est la mesure d'association appropriée d'une variable avec une composante PCA (sur un tracé biplot / chargement)?

Réponses: