La distribution des valeurs propres données est connue

8

Je suis familier avec l'utilisation des connaissances de la théorie des matrices aléatoires pour déterminer le nombre de composants principaux de l'ACP d'une matrice de covariance / corrélation à utiliser pour former des facteurs.

Si la valeur propre associée au premier PC est grande, cela signifie que les valeurs propres restantes doivent être petites (car la somme des valeurs propres doit être égale à la trace de la matrice de corrélation). Lorsque le premier PC est suffisamment grand, il est donc possible que toutes ces valeurs propres soient inférieures aux bornes inférieures de la distribution de Marcenko-Pastur. Il est donc logique qu'ils soient faibles non pas à cause du hasard, mais parce que la première valeur propre est très grande. Cependant, cela ne signifie pas qu'ils contiennent des informations importantes. Au lieu de cela, il serait logique de poser à la place la question «étant donné que le premier PC est un grand nombre, à quoi ressemblerait la distribution des valeurs propres restantes si des données aléatoires en étaient responsables?

Existe-t-il des recherches sur ce problème? S'il est possible d'obtenir la distribution de Marcenko-Pastur conditionnelle à la connaissance d'une ou plusieurs valeurs propres, il serait alors possible de procéder de manière itérative pour déterminer si les facteurs reflètent des informations significatives.

John
la source
Parlez-vous uniquement de données aléatoires à un facteur (sphéroïde aléatoire)?
ttnphns
Je ne sais pas ce que vous entendez par sphéroïde aléatoire, mais généralement il peut y avoir plus d'un facteur à tester. Je l'avais travaillé de sorte que le problème de valeur propre conditionnelle peut être écrit commeejeg(Σ(je-ββ)(je-ββ)), où β sont les vecteurs propres associés à la nles plus grandes valeurs propres, mais ce que j'ai pu trouver comme les inégalités qui lient les valeurs propres du produit de deux matrices semblait assez large.
John
En y réfléchissant une seconde, je pense avoir obtenu les bons résultats. λ~±=(1+1Q±21Q)(je=1nλje-j=1Jλj)/n
John

Réponses:

3

Voici un document sur votre problème: http://math.nyu.edu/faculty/avellane/LalouxPCA.pdf

L'idée est simple, vous calculez la distribution de Marcenko-Pastur avec une variance modifiée des éléments de la matrice. La variance modifiée correspond simplement à la variance expliquée par une autre valeur propre que la première.

Comme l'a dit John, vous devez remplacer σ2 par (je=1nλje-j=1Jλj)/n pour le premier Jvaleurs propres. Si vous avez normalisé votre problème et que vous souhaitez uniquement supprimer le premier composant, vous devez remplacerσ2 par 1-λ1n. Vous obtiendrez:

ρ(λ)=nQ2π(1-λ1)((λmuneX-λ)(λ-λmjen)λ)

Avec:

λmjen/muneX=n(1-λ1)(1+1Q±21Q)

Comme il y a probablement plus d'informations dans votre matrice qu'une seule grande valeur propre et bruit, vous observerez une différence. Par exemple, dans les études de corrélation de marché, nous pouvons observer une fuite des valeurs propres par le bord supérieur du spectre. (Il correspond aux secteurs financiers).

Une autre approche mentionnée dans le document consiste à σ2comme paramètre unique dans la distribution des pâturages de marcenko. Vous devez ensuite ajuster ce paramètre pour l'adapter à votre courbe.

Pour plus d'informations sur les techniques et références utiles, vous pouvez consulter: http://arxiv.org/abs/physics/0507111

lcrmorin
la source
Cette formule doit également réviser Q car le nombre de colonnes a diminué de 1.
Rohit Arora