Est-il possible de visualiser les résultats de l'analyse des composants principaux de manière à donner plus d'informations que les simples tableaux récapitulatifs? Est-il possible de le faire lorsque le nombre d'observations est important, disons ~ 1e4? Et est-il possible de le faire dans R [autres environnements bienvenus]?
r
data-visualization
pca
biplot
gappy
la source
la source
Réponses:
Le biplot est un outil utile pour visualiser les résultats de l'ACP. Il vous permet de visualiser simultanément les principaux scores et directions des composants. Avec 10 000 observations, vous rencontrerez probablement un problème de sur-tracé. Le mélange alpha pourrait y aider.
Voici un biplot PC des données sur les vins du référentiel UCI ML :
Les points correspondent aux scores PC1 et PC2 de chaque observation. Les flèches représentent la corrélation des variables avec PC1 et PC2. Le cercle blanc indique l'étendue maximale théorique des flèches. Les ellipses sont des ellipses de données de 68% pour chacune des 3 variétés de vin dans les données.
J'ai mis à disposition le code pour générer ce tracé ici .
la source
Un tracé Wachter peut vous aider à visualiser les valeurs propres de votre PCA. Il s'agit essentiellement d'un tracé QQ des valeurs propres par rapport à la distribution de Marchenko-Pastur. J'ai un exemple ici: il y a une valeur propre dominante qui ne fait pas partie de la distribution de Marchenko-Pastur. L'utilité de ce type de tracé dépend de votre application.
la source
Vous pouvez également utiliser le package psych.
Il contient une méthode plot.factor, qui tracera les différents composants les uns contre les autres dans le style d'une matrice de nuage de points.
la source