Distribution estimée des valeurs propres pour les données iid (uniformes ou normales)

9

En supposant que j'ai un ensemble de données avec dimensions (par exemple ) de sorte que chaque dimension soit iid (alternativement, chaque dimension ) et indépendante de L'une et l'autre.dd=20XiU[0;1]XiN[0;1]

Maintenant, je dessine un objet aléatoire de cet ensemble de données et prends les voisins les plus proches et calcule PCA sur cet ensemble. Contrairement à ce à quoi on pourrait s'attendre, les valeurs propres ne sont pas toutes les mêmes. En 20 dimensions uniformes, un résultat typique ressemble à ceci:k=3d

0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625

Pour les données distribuées normales, les résultats semblent être très similaires, au moins lors de leur redimensionnement à une somme totale de (la distribution a clairement une variance plus élevée en premier lieu).1N[0;1]d

Je me demande s'il y a un résultat qui prédit ce comportement? Je cherche un test si la série de valeurs propres est quelque peu régulière, et combien de valeurs propres sont conformes aux attentes et lesquelles diffèrent considérablement des valeurs attendues.

Pour un (petit) échantillon donné , y a-t-il un résultat si un coefficient de corrélation pour deux variables est significatif? Même les variables iid auront parfois un résultat différent de 0 pour un faible .kk

A QUIT - Anony-Mousse
la source
1
hmmm, pourriez-vous imprimer ces résultats avec moins de figues sig? Je ne peux pas les analyser facilement ...
shabbychef
Eh bien, comme vous pouvez le voir, l'ampleur est intéressante. Naïvement, on s'attendrait à ce qu'ils aient tous la même ampleur.
A QUIT - Anony-Mousse

Réponses:

7

Il existe une grande littérature sur la distribution des valeurs propres pour les matrices aléatoires (vous pouvez essayer de googler la théorie des matrices aléatoires). En particulier, la distribution de Marcenko-Pastur prédit la distribution des valeurs propres pour la matrice de covariance des données avec une moyenne de zéro et une variance égale lorsque le nombre de variables et d'observations va à l'infini. La distribution en demi-cercle de Wigner est étroitement liée.i.i.d.

John
la source