Interprétation des scores PCA

16

Quelqu'un peut-il m'aider à interpréter les scores PCA? Mes données proviennent d'un questionnaire sur les attitudes envers les ours. Selon les chargements, j'ai interprété l'une de mes principales composantes comme "la peur des ours". Les scores de cette composante principale seraient-ils liés à la façon dont chaque répondant se mesure à cette composante principale (s'il / elle obtient une note positive / négative)?

mdewey
la source
La réponse courte à votre question est OUI.
Amoeba dit Reinstate Monica

Réponses:

13

Fondamentalement, les scores des facteurs sont calculés comme les réponses brutes pondérées par les charges de facteurs. Vous devez donc examiner les chargements factoriels de votre première dimension pour voir comment chaque variable est liée à la composante principale. L'observation de charges positives (resp. Négatives) élevées associées à des variables spécifiques signifie que ces variables contribuent positivement (resp. Négativement) à cette composante; par conséquent, les personnes obtenant un score élevé sur ces variables auront tendance à avoir des scores factoriels plus élevés (ou plus faibles) pour cette dimension particulière.

Le dessin du cercle de corrélation est utile pour avoir une idée générale des variables qui contribuent "positivement" vs "négativement" (le cas échéant) au premier axe principal, mais si vous utilisez R, vous pouvez jeter un œil au package FactoMineR et la dimdesc()fonction.

Voici un exemple avec les USArrestsdonnées:

> data(USArrests)
> library(FactoMineR)
> res <- PCA(USArrests)
> dimdesc(res, axes=1)  # show correlation of variables with 1st axis
$Dim.1
$Dim.1$quanti
         correlation  p.value
Assault        0.918 5.76e-21
Rape           0.856 2.40e-15
Murder         0.844 1.39e-14
UrbanPop       0.438 1.46e-03
> res$var$coord  # show loadings associated to each axis
         Dim.1  Dim.2  Dim.3   Dim.4
Murder   0.844 -0.416  0.204  0.2704
Assault  0.918 -0.187  0.160 -0.3096
UrbanPop 0.438  0.868  0.226  0.0558
Rape     0.856  0.166 -0.488  0.0371

Comme le montre le dernier résultat, la première dimension reflète principalement les actes de violence (de toute nature). Si nous regardons la carte individuelle, il est clair que les États situés à droite sont ceux où ces actes sont les plus fréquents.

texte alternatif texte alternatif

Vous pouvez également être intéressé par cette question connexe: Quels sont les scores des composantes principales?

chl
la source
5

Pour moi, les scores PCA ne sont que des réarrangements des données sous une forme qui me permet d'expliquer l'ensemble de données avec moins de variables. Les scores représentent la relation entre chaque élément et la composante. Vous pouvez les nommer selon l'analyse factorielle, mais il est important de se rappeler qu'il ne s'agit pas de variables latentes, car l'ACP analyse toutes les variances dans l'ensemble de données, pas seulement les éléments communs (comme le fait l'analyse factorielle).

richiemorrisroe
la source
Oui, vous avez raison de dire qu'aucun modèle d'erreurs n'est incorporé dans PCA, par opposition à FA. J'ai +1 pour ce point particulier. Notez que j'ai dit "il est logique de considérer", non que les principaux composants extraits de PCA soient de vrais LV. À moins que vous ne souhaitiez évaluer la fiabilité de l'échelle ou les modèles de mesure, peu importe que vous utilisiez PCA ou FA. Or, l'analyse des données vise souvent à expliquer la corrélation entre les variables ou à trouver des groupes de sujets, d'où l'idée d' interpréter une ou plusieurs dimensions de l'espace factoriel. (...)
chl
(...) Le FactoMineR comprend un ensemble de données sur les vins, et de nombreuses méthodes factorielles peuvent être utilisées pour jouer avec lui (PCA, MFA), et même PLS ou CCA comme l'a fait Michel Tenenhaus.
chl
@ chl, merci pour le conseil concernant le paquet, je vais vérifier cela. Sur PCA vs FA, je suis d'accord jusqu'à un certain point. Je préfère FA pour la plupart des applications, car je finance les estimations des communalités (la variance commune) pour être très utiles pour évaluer la valeur d'une structure factorielle particulière. Mais ce n'est peut-être qu'une préférence personnelle.
richiemorrisroe
Vous avez tout à fait raison (j'ai déjà voté en faveur de votre réponse précédente car elle était très claire). C'est juste que (non orienté) PCA a sa propre histoire dans l'analyse des données (en particulier l'école française), avec CA, MFA, MCA. D'un autre côté, Paul Kline a deux très beaux livres sur l'utilisation de l'AF dans la recherche sur la personnalité. Et le livre à venir de William Revelle devrait basculer pour les utilisateurs de R :) Eh bien, en tout cas, je pense que nous sommes d'accord que ce sont des outils utiles pour analyser la structure d'une matrice de corrélation.
chl
0

Les résultats de l'ACP (les différentes dimensions ou composantes) ne peuvent généralement pas être traduits en un véritable concept. Je pense qu'il est faux de supposer que l'un des composants est la "peur des ours", qu'est-ce qui vous fait penser que c'est ce que le composant voulait dire? La procédure des composants principaux transforme votre matrice de données en une nouvelle matrice de données avec la même quantité ou moins de dimensions, et les dimensions résultantes vont de celle qui explique le mieux la variance à celle qui l'explique le moins. Ces composants sont calculés sur la base d'une combinaison des variables d'origine avec les vecteurs propres calculés. La procédure PCA globale convertit les variables originales en variables orthogonales (linéairement indépendantes). J'espère que cela vous aide à clarifier un peu la procédure du PCA

mariana soffer
la source
Seriez-vous d'accord pour dire qu'une combinaison linéaire de certaines variables peut toujours être interprétée comme reflétant une sorte de contribution pondérée de chacune d'elles à l'axe factoriel?
chl
Oui, c'est exactement ça.
mariana soffer
Alors, pourquoi empêcher de lui donner un nom? Les variables sont simplement considérées comme des variables manifestes et, dans certains cas, il est logique de considérer leur combinaison pondérée comme reflétant un facteur latent (non observé).
chl