Confus au sujet de l'explication visuelle des vecteurs propres: comment des ensembles de données visuellement différents peuvent-ils avoir les mêmes vecteurs propres?

10

De nombreux manuels de statistiques fournissent une illustration intuitive de ce que sont les vecteurs propres d'une matrice de covariance:

entrez la description de l'image ici

Les vecteurs u et z forment les vecteurs propres (enfin les axes propres). C'est logique. Mais la seule chose qui me déroute, c'est que nous extrayons des vecteurs propres de la matrice de corrélation , pas les données brutes. De plus, des ensembles de données bruts assez différents peuvent avoir des matrices de corrélation identiques. Par exemple, les deux éléments suivants ont des matrices de corrélation de:

[10.970.971]

Vecteurs propres

En tant que tels, ils ont des vecteurs propres pointant dans la même direction:

[.71.71.71.71]

Mais si vous deviez appliquer la même interprétation visuelle des directions dans lesquelles les vecteurs propres se trouvaient dans les données brutes, vous obtiendrez des vecteurs pointant dans des directions différentes.

Quelqu'un peut-il me dire où je me suis trompé?

Deuxième édition : Si je peux être si audacieux, avec les excellentes réponses ci-dessous, j'ai pu comprendre la confusion et l'illustrer.

  1. L'explication visuelle est cohérente avec le fait que les vecteurs propres extraits de la matrice de covariance sont distincts.

    Covariances et vecteurs propres (rouge):

    [1111][.7.72.72.7]

    Covariances et vecteurs propres (bleu):

    [.25.5.51][.43.9.9.43]
  2. Les matrices de corrélation reflètent les matrices de covariance des variables standardisées. L'inspection visuelle des variables standardisées montre pourquoi des vecteurs propres identiques sont extraits dans mon exemple:

entrez la description de l'image ici

Sue Doh Nimh
la source
3
Si vous souhaitez évaluer la corrélation , vous devez dessiner vos nuages ​​de points avec des échelles dans lesquelles les écarts-types des composants sont égaux. Ce n'est le cas dans aucune de vos images (sauf peut-être pour les points rouges dans la seconde), ce qui peut être une des raisons pour lesquelles vous trouvez cela déroutant.
whuber
3
J'apprécie que vous ayez illustré votre question. Cela aide les gens à le comprendre et ajoute à la valeur du fil pour référence future. Sachez cependant que ~ 10% des hommes sont daltoniens rouge-vert. Avec 2 couleurs, le rouge et le bleu peuvent être plus sûrs.
gung - Rétablir Monica
Merci beaucoup, j'ai corrigé les couleurs comme vous l'avez suggéré
Sue Doh Nimh
2
Pas de problème, @SueDohNimh. Merci de le rendre intelligible pour tous. Sur une note différente, je garderais la [PCA]balise. Si vous souhaitez recentrer la question, ou poser une nouvelle question (liée) et un lien vers celle-ci, cela semble bien, mais je pense que cette question est suffisamment PCA pour mériter la balise.
gung - Rétablir Monica
Beau travail, @SueDohNimh. Vous pouvez également ajouter cela comme réponse à votre propre question au lieu d'une modification, si vous le souhaitez.
gung - Rétablir Monica

Réponses:

9

Vous n'avez pas besoin de faire PCA sur la matrice de corrélation; vous pouvez également décomposer la matrice de covariance. Notez que ceux-ci donneront généralement des solutions différentes. (Pour plus d'informations, voir: ACP sur la corrélation ou la covariance? )

Dans votre deuxième figure, les corrélations sont les mêmes, mais les groupes semblent différents. Ils ont l'air différents parce qu'ils ont des covariances différentes. Cependant, les variances sont également différentes (par exemple, le groupe rouge varie sur une plage plus large de X1), et la corrélation est la covariance divisée par les écarts-types ( ). Par conséquent, les corrélations peuvent être les mêmes. Covxy/SDxSDy

Encore une fois, si vous effectuez l'ACP avec ces groupes en utilisant les matrices de covariance, vous obtiendrez un résultat différent de celui que vous utilisez les matrices de corrélation.

gung - Réintégrer Monica
la source
2
+1 Vous avez probablement également remarqué qu'avec deux variables, la matrice de corrélation a toujours les deux mêmes vecteurs propres, et , quelle que soit la valeur de la corrélation. (1,1)(1,1)
whuber
1
+1 à ce que @whuber a écrit, mais notez que les valeurs propres correspondantes dépendent de la valeur de corrélation.
amibe
C'est vrai, mais les vecteurs propres de la matrice Cov peuvent varier en fonction de la corrélation.
gung - Rétablir Monica
1
Salut les gars, merci beaucoup. Je savais que des vecteurs propres distincts découlent de l'utilisation des matrices de covariance à la place; ce fut une autre source de préoccupation car je me suis inquiété qu'en utilisant des matrices de corrélation à la place, je réduisais les informations utilisées et donc j'étais moins précis. Serait-il judicieux de conclure sur la base de vos réponses que l'interprétation visuelle fournie n'est vraiment applicable qu'aux vecteurs propres de la matrice de covariance des données brutes plutôt qu'à la matrice de corrélation?
Sue Doh Nimh
1
Pas vraiment, @SueDohNimh. Vous pouvez utiliser l'interprétation visuelle, standardisez d'abord vos variables si vous souhaitez utiliser la matrice de corrélation.
gung - Rétablir Monica