Contexte: J'ai demandé à des centaines de participants à mon enquête à quel point ils étaient intéressés par des domaines sélectionnés (par échelles de Likert à cinq points, 1 indiquant «pas intéressé» et 5 indiquant «intéressé»).
Ensuite, j'ai essayé PCA. L'image ci-dessous est une projection des deux premières composantes principales. Les couleurs sont utilisées pour les sexes et les flèches PCA sont des variables originales (c'est-à-dire les intérêts).
J'ai remarqué ça:
- Les points (répondants) sont assez bien séparés par la deuxième composante.
- Il ne reste aucune flèche.
- Certaines flèches sont beaucoup plus courtes que d'autres.
- Les variables tendent à former des grappes, mais pas des observations.
- Il semble que les flèches pointant vers le bas (vers les hommes) sont principalement les intérêts des hommes et les flèches pointant vers le haut sont principalement les intérêts des femmes.
- Certaines flèches ne pointent ni vers le bas ni vers le haut.
Questions: Comment interpréter correctement les relations entre les points (répondants), les couleurs (genres) et les flèches (variables)? Quelles autres conclusions sur les répondants et leurs intérêts peuvent être extraites de ce complot?
Les données peuvent être trouvées ici .
Réponses:
Les points sont les répondants et les couleurs sont les genres. Tu sais. Les principaux axes de votre graphique représentent les premier et deuxième scores PC et les individus sont tracés sur cette base. Quelqu'un dans le quadrant inférieur gauche a obtenu de faibles scores sur les deux. PC2 semble signaler les intérêts "masculins" et "féminins". Je ne sais pas ce que PC1 signifie, mais cela représente probablement un score d'intérêt global - les personnes ayant beaucoup d'intérêts ont un score élevé. Ou peut-être qu'il représente des personnes ayant des intérêts passionnés (score 5).
Les vecteurs sont un système de coordonnées projeté pour les variables d'origine. Donc, si vous projetez un point perpendiculairement sur, disons, le vecteur de lecture - vous devriez obtenir le score de lecture de cette personne. La position relative est importante ici.
Prenez un vecteur "masculin" comme "sports d'adrénaline". Imaginez maintenant que vous projetez une tache rose dessus depuis le haut dans le quadrant supérieur droit. Les coordonnées de cette personne sur les «sports d'adrénaline» seront négatives.
Alors pourquoi les flèches sont-elles toutes dans la moitié droite du graphique? Compte tenu de la géométrie, plus une personne est profonde dans le côté gauche du graphique, moins ses projections seront positives. Cela suggère que PC1 est une mesure du niveau d'intérêt global.
Je ne sais pas quoi d'autre vous pourriez apprendre ici. Vous voudrez peut-être regarder PC3 et PC4, si PC1 et PC2 vous disent seulement que certaines personnes ont plus d'intérêts que d'autres et que les hommes sont différents des femmes.
Votre intrigue semble presque symétrique autour de l'axe PC1 et symétrique par rapport au sexe. Autant d'hommes ont des intérêts féminins que de femmes ont des intérêts masculins ... ou est-ce vrai? Je regarde juste les points. Il pourrait être intéressant de regarder les zones où la carte n'est pas symétrique: grand PC1, PC2 modérément négatif --- ce secteur a beaucoup d'action. Pourquoi?
la source