Quelle est la mesure d'association appropriée d'une variable avec une composante PCA (sur un tracé biplot / chargement)?

17

J'utilise FactoMineRpour réduire mon ensemble de données de mesures aux variables latentes.

! [carte variable] (http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

La carte des variables ci-dessus est claire pour moi à interpréter, mais je suis confus en ce qui concerne les associations entre les variables et le composant 1. En regardant la carte des variables, ddpet covtrès proche du composant dans la carte, et ddpAbsun peu plus loin une façon. Mais ce n'est pas ce que montrent les corrélations:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

Ensuite, il y a la sin2quantité, qui est la hauteur de rpvi(par exemple), mais cette mesure n'est pas du tout la variable la plus proche du premier composant.

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

Alors, que dois-je regarder quand il s'agit de l'association entre une variable et le premier composant?

Fredrik Karlsson
la source
1
Bien que les points sur votre carte (qui ressemble au tracé de chargement) soient encombrés, je dirais que le tracé correspond bien à la sortie des "corrélations". Ces "corrélations" sont les coordonnées sur Dim1. Ils, les chargements, sont des corrélations entre un facteur et des variables (lorsque vous avez basé votre analyse sur des données standardisées = sur des corrélations n / b des variables).
ttnphns
En plus des réponses ci-dessous, veuillez vérifier celle-ci avec d'autres liens.
ttnphns

Réponses:

25

Explication d'un tracé de chargement de l'analyse PCA ou factorielle.

Le graphique de chargement affiche les variables sous forme de points dans l'espace des principaux composants (ou facteurs). Les coordonnées des variables sont généralement les chargements. (Si vous combinez correctement le tracé de chargement avec le nuage de points correspondant des cas de données dans le même espace de composants, ce serait un tracé double).

Ayons 3 variables corrélées en quelque sorte, , W , U . Nous centrons eux et exécutons PCA , extraire 2 premières composantes principales des trois: F 1 et F 2 . Nous utilisons les chargements comme coordonnées pour faire le tracé de chargement ci-dessous. Les charges sont les éléments des vecteurs propres non normalisés, c'est-à-dire les vecteurs propres dotés de variances de composants correspondantes, ou valeurs propres.VWUF1F2

enter image description here

Le tracé de chargement est l'avion sur l'image. Considérons seule variable . La flèche habituellement tracée sur un tracé de chargement est ce que nous appelons ici h ' ; les coordonnées a 1 , a 2 sont les chargements de V avec F 1 et F 2 , respectivement (sachez que terminologiquement est plus correct de dire "le composant charge une variable", et non l'inverse).Vha1a2VF1F2

Flèche est la projection, sur le plan composante, du vecteur h qui est la position réelle de la variable V dans les variables de l'espace engendré par V , W , U . La longueur au carré du vecteur, h 2 est la variance d' un de V . Alors que h ' 2 est la partie de cette variance expliquée par les deux composantes.hhVVWUh2aVh2

Chargement, corrélation, corrélation projetée . Puisque les variables étaient centrées avant l'extraction des composants, est la corrélation de Pearson entre V et la composante F 1 . Cela ne doit pas être confondu avec cos α sur la courbe de chargement, qui est une autre quantité: il s'agit de la corrélation de Pearson entre la composante F 1 et la variable vectorisée ici comme h ' . En tant que variable, h ' est la prédiction de V par les composantes (normalisées) en régression linéaire (comparer avec le dessin de la géométrie de régression linéaire icicosϕVF1cosαF1hhV) où les chargements sont les coefficients de régression (lorsque les composants sont maintenus orthogonaux, tels qu'ils sont extraits).a

Plus loin. On peut rappeler (trigonométrie) que . Il peut être compris comme le produit scalaire entre le vecteur V et le vecteur de longueur unitaire F 1 : h 1 cos ϕ . F 1 est fixé à ce vecteur unité-variance car il n'a pas sa propre variance en dehors de cette variance de V qu'il explique (par le montant h ): soit F 1a1=hcosϕVF1h1cosϕF1VhF1est une entité extraite de V, W, U et non une entité invitée de l'extérieur. Alors, clairement, est lacovarianceentreVetbnormalisé, à l'échelle unitaire(pour définirs1=a1=varVvarF1r=h1cosϕVb) composanteF1. Cette covariance est directement comparable aux covariances entre les variables d'entrée; par exemple, la covariance entreVetWsera le produit de leurs longueurs vectorielles multipliées par le cosinus entre elles.s1=varF1=1F1VW

Pour résumer: le chargement d' peut être vu comme la covariance entre la composante normalisée et la variable observée, h 1 cos ϕ , ou de manière équivalente entre la composante normalisée et l'image expliquée (par toutes les composantes définissant le tracé) de l'image variable, h 1 cos α . Ce cos α pourrait être appelé corrélation V-F1 projetée sur le sous-espace des composants F1-F2.a1h1cosϕh1cosαcosα

La corrélation susmentionnée entre une variable et un composant, , est également appelée chargement normalisé ou redimensionné . Il est pratique dans l'interprétation des composants car il se situe dans la plage [-1,1].cosϕ=a1/h

Relation avec les vecteurs propres . Le chargement redimensionné ne doit pas être confondu avec l' élément vecteur propre qui - comme nous le savons - est le cosinus de l'angle entre une variable et une composante principale. Rappelons que le chargement est un élément de vecteur propre mis à l'échelle par la valeur singulière du composant (racine carrée de la valeur propre). C'est-à-dire pour la variable V de notre tracé: a 1 = e 1 s 1 , où s 1 est la st. écart (non pas 1 mais original, c'est-à-dire la valeur singulière) de F 1cosϕVa1=e1s1s11F1variable latente. Il arrive alors que l'élément vecteur propre , pas lecosϕlui-même. La confusion autour de deux mots "cosinus" se dissout lorsque nous nous souvenons du type de représentation spatiale dans laquelle nous nous trouvons. La valeur du vecteur propreest lecosinusde l'angle de rotationd'une variable comme axe en pr. composant comme axe dans un espace variable (également appelé nuage de points),comme ici. Alors quecosϕsur notre graphique de chargementest la mesure de similitude cosinusentre une variable comme vecteur et un pr. composant aussi bien ... comme vecteur aussi, si vous le souhaitez (bien qu'il soit dessiné comme axe sur le tracé), - car nous sommes actuellement dans l'espace sujete1=a1s1=hs1cosϕcosϕcosϕ (quel est le tracé de chargement) où les variables corrélées sont des fans de vecteurs - pas des axes orthogonaux, - et les angles vectoriels sont la mesure de l'association - et non de la rotation de la base spatiale.

Alors que le chargement est la mesure d'association angulaire (c'est-à-dire le type de produit scalaire) entre une variable et un composant à l'échelle unitaire, et le chargement redimensionné est le chargement normalisé où l'échelle de la variable est réduite à l'unité non plus, mais le coefficient de vecteur propre est le chargement où le le composant est «trop standardisé», c'est-à-dire qu'il a été porté à l'échelle (plutôt que 1); alternativement, il peut être considéré comme un chargement redimensionné où l'échelle de la variable a été portée à h / s (au lieu de 1).1/sh/s

Alors, quelles sont les associations entre une variable et un composant? Vous pouvez choisir ce que vous aimez. Il peut s'agir du chargement (covariance avec composante à l'échelle unitaire) ; le chargement redimensionné cos ϕ (= corrélation à composantes variables); corrélation entre l'image (prédiction) et la composante (= corrélation projetée cos α ). Vous pouvez même choisir le coefficient de vecteur propre e = a / s si vous en avez besoin (bien que je me demande quelle pourrait être la raison). Ou inventez votre propre mesure.a cosϕcosαe=a/s

La valeur du vecteur propre au carré a la signification de la contribution d'une variable dans un pr. composant. Le chargement redimensionné au carré a la signification de la contribution d'un pr. composant dans une variable.

Relation avec l'ACP basée sur les corrélations. Si nous analysions PCA non seulement les variables centrées mais normalisées (centrées puis à l'échelle de la variance unitaire), alors les trois vecteurs variables (et non leurs projections sur le plan) seraient de la même longueur unitaire. Il s'ensuit alors automatiquement qu'un chargement est une corrélation , et non une covariance, entre une variable et un composant. Mais cette corrélation ne sera pas égale au "chargement normalisé" de l' image ci-dessus (basé sur l'analyse de variables simplement centrées), car l'ACP des variables normalisées (ACP basée sur les corrélations) produit des composants différents de l'APC des variables centrées ( ACP basée sur les covariances). Dans l'ACP basée sur la corrélation a 1cosϕ parce que h = 1 , mais les composantes principalesnesontpas les mêmescomposantes principales quecellesque nous obtenons de l'ACP basée sur des covariances (lire,lire).a1=cosϕh=1

Dans l' analyse factorielle , le tracé de chargement a fondamentalement le même concept et la même interprétation que dans l'ACP. La seule différence (mais importante ) est la substance de . En analyse factorielle, h ' - appelé alors "communalité" de la variable - est la partie de sa variance qui s'explique par des facteurs communs qui sont spécifiquement responsables des corrélations entre variables. En PCA, la partie expliquée h 'hh hest un «mélange» brut - il représente en partie la corrélation et en partie la non-corrélation entre les variables. Avec l'analyse factorielle, le plan des chargements sur notre image serait orienté différemment (en fait, il s'étendra même hors de l'espace de nos variables 3D dans la 4ème dimension, que nous ne pouvons pas dessiner; le plan des chargements ne sera pas un sous-espace de notre Espace 3D couvert par et les deux autres variables), et la projection h ' sera d'une autre longueur et d'un autre angle α . (La différence théorique entre l'ACP et l'analyse factorielle est expliquée géométriquement ici via la représentation de l'espace sujet et ici via la représentation de l'espace variable.)Vhα


Une réponse à la demande de @Antoni Parellada dans les commentaires. Il est équivalent que vous préfériez parler en termes devarianceou en termes dedispersion(SS d'écart): variance = scatter / (n-1), oùnest la taille de l'échantillon. Parce que nous avons affaire à un ensemble de données avec le mêmen, la constante ne change rien dans les formules. SiXest les données (avec les variables V, W, centrées sur U), alors la composition propre de sa matrice de covariance (A) donne les mêmes valeurs propres (variances des composants) et vecteurs propres que la composition propre de la matrice de dispersion (B) X Xa,b/(n1)nnXXXXn1a1=hs1cosϕh varVVs11F1varF1 in (A) but root scatter F1 in (B). Finally, cosϕ=r is the correlation which is insensitive to the usage of n1 in its calculations. Thus, we simply speak conceptually of variances (A) or of scatters (B), while the values themselves remain the same in the formula in both instances.

ttnphns
la source
This answer is great and has a lot of info, but I think the actual answer to the question would lie in "what does α mean?"
shadowtalker
@ssdecontrol, I added a line regarding that.
ttnphns
I have been reading your posts on the topic, and I'm stuck on seemingly the most obvious part, when you say... "clearly, a1=varVvarF1r=h1cosϕ. Since r=cosϕ and varF1=1, it follows that varV=h. However, h=V=x2, whereas varV=x2n1. What am I missing?
Antoni Parellada
1
@AntoniParellada, please check the footnote.
ttnphns
1
I read your addendum, and it is very illuminating. Thank you! Without picking out specific sentences, it would explain some of the transitions from unit-variance to unit norm scaling of F1 along the answer, which previously presented some difficulty (to me).
Antoni Parellada