Pourquoi la quantité de variance expliquée par mon 1er PC est-elle si proche de la corrélation moyenne par paire?

9

Quelle est la relation entre la ou les premières composantes principales et la corrélation moyenne dans la matrice de corrélation?

Par exemple, dans une application empirique, j'observe que la corrélation moyenne est presque la même que le rapport de la variance de la première composante principale (première valeur propre) à la variance totale (somme de toutes les valeurs propres).

Existe-t-il une relation mathématique?

Voici le tableau des résultats empiriques. Où la corrélation est la corrélation moyenne entre les rendements des composants de l'indice DAX calculés sur une fenêtre mobile de 15 jours et la variance expliquée est la part de la variance expliquée par la première composante principale, également calculée sur la fenêtre mobile de 15 jours.

Cela pourrait-il s'expliquer par un modèle de facteur de risque commun tel que le CAPM?

entrez la description de l'image ici

Étudiant
la source
1
Que pensez-vous qu'il se passe lorsque de nombreuses corrélations sont négatives ou proches de zéro? Par exemple, générez des données normales bivariées avec une corrélation nulle. Pourquoi vous attendriez-vous à ce qu'il y ait une relation entre votre rapport de variance et cette corrélation nulle?
whuber

Réponses:

6

Je crois que la relation entre la corrélation moyenne et la valeur propre du 1er PC existe mais n'est pas unique. Je ne suis pas un mathématicien pour pouvoir le déduire, mais je peux au moins afficher le point de départ à partir duquel l'intuition ou la pensée pourrait se développer.

Si vous dessinez des variables standardisées comme vecteurs dans l'espace euclidien qui la contient (et c'est l'espace réduit où les axes sont des observations), la corrélation est le cosinus entre deux vecteurs .

entrez la description de l'image ici

Et parce que les vecteurs sont tous de longueur unitaire (en raison de la standardisation), les cosinus sont les projections des vecteurs les uns sur les autres (comme indiqué sur l'image de gauche avec trois variables). Le 1er PC est une telle ligne dans cet espace qui maximise la somme des projections carrées sur lui, un , appelé charges; et cette somme est la 1ère valeur propre.

Ainsi, lorsque vous établissez la relation entre la moyenne des trois projections à gauche avec la somme (ou la moyenne) des trois projections au carré à droite, vous répondez à votre question sur la relation entre la corrélation moyenne et la valeur propre.

ttnphns
la source
6

Je pense que ce qui s'est passé ici, c'est que toutes les variables étaient positivement corrélées entre elles. Dans ce cas, le 1er PC s'avère assez souvent très proche de la moyenne de toutes les variables. Si toutes les variables sont positivement corrélées avec exactement le même coefficient de corrélation , alors le 1er PC est exactement proportionnel à la moyenne de toutes les variables, comme je l'explique ici: La moyenne de toutes les variables peut-elle être considérée comme une forme brute de PCA?c

Dans ce cas simple, on peut en fait dériver mathématiquement la relation que vous demandez. Considérons la matrice de corrélation de taille qui ressemble à ceci:Son premier vecteur propre est égal à , ce qui correspond à la moyenne [échelonnée] de toutes les variables. Sa valeur propre est . La somme de toutes les valeurs propres si bien sûr donnée par la somme de tous les éléments diagonaux, c'est-à-dire . La proportion de variance expliquée par le premier PC est donc égale àn×n

(1cccc1cccc1cccc1).
(1,1,1,1)/nλ1=1+(n1)cλi=n
R2=1n+n1ncc.

Donc, dans ce cas le plus simple, la proportion de la variance expliquée par le premier PC est 100% corrélée avec la corrélation moyenne, et pour les grands est approximativement égale à elle. C'est précisément ce que nous voyons sur votre intrigue.n

Je m'attends à ce que pour les grandes matrices, ce résultat se maintienne approximativement même si les corrélations ne sont pas exactement identiques.


Mise à jour. En utilisant le chiffre affiché dans la question, on peut même essayer d'estimer le en notant que . Si nous prenons et , alors nous obtenons . Le PO a déclaré que les données étaient un "indice boursier DAX"; googler, nous voyons qu'il se compose apparemment de variables. Pas un mauvais match.n = ( 1 - c ) / ( R 2 - c ) c = 0,5 R 2 - c = 0,02 n = 25 30nn=(1c)/(R2c)c=0.5R2c=0.02n=2530

amibe
la source