Je suis familier avec l'utilisation des connaissances de la théorie des matrices aléatoires pour déterminer le nombre de composants principaux de l'ACP d'une matrice de covariance / corrélation à utiliser pour former des facteurs.
Si la valeur propre associée au premier PC est grande, cela signifie que les valeurs propres restantes doivent être petites (car la somme des valeurs propres doit être égale à la trace de la matrice de corrélation). Lorsque le premier PC est suffisamment grand, il est donc possible que toutes ces valeurs propres soient inférieures aux bornes inférieures de la distribution de Marcenko-Pastur. Il est donc logique qu'ils soient faibles non pas à cause du hasard, mais parce que la première valeur propre est très grande. Cependant, cela ne signifie pas qu'ils contiennent des informations importantes. Au lieu de cela, il serait logique de poser à la place la question «étant donné que le premier PC est un grand nombre, à quoi ressemblerait la distribution des valeurs propres restantes si des données aléatoires en étaient responsables?
Existe-t-il des recherches sur ce problème? S'il est possible d'obtenir la distribution de Marcenko-Pastur conditionnelle à la connaissance d'une ou plusieurs valeurs propres, il serait alors possible de procéder de manière itérative pour déterminer si les facteurs reflètent des informations significatives.
Réponses:
Voici un document sur votre problème: http://math.nyu.edu/faculty/avellane/LalouxPCA.pdf
L'idée est simple, vous calculez la distribution de Marcenko-Pastur avec une variance modifiée des éléments de la matrice. La variance modifiée correspond simplement à la variance expliquée par une autre valeur propre que la première.
Comme l'a dit John, vous devez remplacerσ2 par (∑ni = 1λje-∑Jj = 1λj) / n pour le premier J valeurs propres. Si vous avez normalisé votre problème et que vous souhaitez uniquement supprimer le premier composant, vous devez remplacerσ2 par 1 -λ1n . Vous obtiendrez:
Avec:
Comme il y a probablement plus d'informations dans votre matrice qu'une seule grande valeur propre et bruit, vous observerez une différence. Par exemple, dans les études de corrélation de marché, nous pouvons observer une fuite des valeurs propres par le bord supérieur du spectre. (Il correspond aux secteurs financiers).
Une autre approche mentionnée dans le document consiste àσ2 comme paramètre unique dans la distribution des pâturages de marcenko. Vous devez ensuite ajuster ce paramètre pour l'adapter à votre courbe.
Pour plus d'informations sur les techniques et références utiles, vous pouvez consulter: http://arxiv.org/abs/physics/0507111
la source