Visualiser un million, édition PCA

31

Est-il possible de visualiser les résultats de l'analyse des composants principaux de manière à donner plus d'informations que les simples tableaux récapitulatifs? Est-il possible de le faire lorsque le nombre d'observations est important, disons ~ 1e4? Et est-il possible de le faire dans R [autres environnements bienvenus]?

gappy
la source
2
Quelques questions: combien de composants avez-vous? Outre la taille de l'échantillon, y a-t-il quelque chose qui fait que l'affichage de cette sortie PCA doit être différent de l'affichage d'autres variables continues que l'on pourrait traiter? Essayez-vous de comparer les scores de différents groupes, et si oui, combien? En général, qu'espérez-vous réaliser avec vos écrans?
rolando2

Réponses:

53

Le biplot est un outil utile pour visualiser les résultats de l'ACP. Il vous permet de visualiser simultanément les principaux scores et directions des composants. Avec 10 000 observations, vous rencontrerez probablement un problème de sur-tracé. Le mélange alpha pourrait y aider.

Voici un biplot PC des données sur les vins du référentiel UCI ML :

PC Biplot de données de vin du référentiel UCI ML

Les points correspondent aux scores PC1 et PC2 de chaque observation. Les flèches représentent la corrélation des variables avec PC1 et PC2. Le cercle blanc indique l'étendue maximale théorique des flèches. Les ellipses sont des ellipses de données de 68% pour chacune des 3 variétés de vin dans les données.

J'ai mis à disposition le code pour générer ce tracé ici .

vqv
la source
5
Un ajout vraiment de dynamite.
rolando2
1
p×2VVVT
V
4

Un tracé Wachter peut vous aider à visualiser les valeurs propres de votre PCA. Il s'agit essentiellement d'un tracé QQ des valeurs propres par rapport à la distribution de Marchenko-Pastur. J'ai un exemple ici: Diagramme de Wachter montrant une seule valeur propre dominanteil y a une valeur propre dominante qui ne fait pas partie de la distribution de Marchenko-Pastur. L'utilité de ce type de tracé dépend de votre application.

shabbychef
la source
7
Il serait utile d'en savoir plus ici (peut-être quelques explications supplémentaires et / ou quelques liens utiles). Qu'est-ce que la distribution Marchenko-Pastur? Comment est-ce lié à l'APC? Qu'est-ce que cela signifie pour vos résultats s'il tient ou non? (etc)
gung - Reinstate Monica
0

Vous pouvez également utiliser le package psych.

Il contient une méthode plot.factor, qui tracera les différents composants les uns contre les autres dans le style d'une matrice de nuage de points.

richiemorrisroe
la source