Variables asymétriques dans l'ACP ou l'analyse factorielle

9

Je veux faire une analyse en composantes principales (analyse factorielle) sur SPSS basée sur 22 variables. Cependant, certaines de mes variables sont très asymétriques (l'asymétrie calculée à partir de SPSS varie de 2 à 80!).

Donc, voici mes questions:

Dois-je conserver les variables asymétriques comme cela ou pourrais-je transformer les variables sur l'analyse des composants principaux? Si oui, comment interpréterais-je les scores factoriels?
Quel type de transformation dois-je faire? log10 ou ln?
À l'origine, mon KMO (Kaiser – Meyer – Olkin) est de 0,413. Une grande partie de la littérature recommande un minimum de 0,5. Puis-je toujours faire une analyse factorielle ou dois-je supprimer des variables pour augmenter mon KMO à 0,5?

pca factor-analysis dimensionality-reduction skewness Meo
la source

5

Une remarque: l'ACP n'est pas la même chose que l'analyse factorielle. PCA est une méthode de réduction des données, FA est une tentative de trouver des variables latentes. Ils donnent souvent (mais pas toujours) des résultats similaires

Peter Flom

9

Le problème d'asymétrie dans l'ACP est le même que dans la régression: la queue plus longue, si elle est vraiment longue par rapport à l'ensemble de la distribution, se comporte en fait comme une grande valeur aberrante - elle tire fortement la ligne d'ajustement (composant principal dans votre cas) vers lui-même parce que son influence est renforcée; son influence est renforcée car elle est loin de la moyenne. Dans le contexte de l'ACP, autoriser des variables très asymétriques est assez similaire à l'ACP sans centrer les données (c'est-à-dire, effectuer l'ACP sur la base d'une matrice cosinus plutôt que d'une matrice de corrélation). C'est vous qui décidez si vous voulez permettre à la longue queue d'influencer les résultats de manière si importante (et laisser les données être) ou non (et transformer les données). Le problème n'est pas lié à la façon dont vous interprétez les chargements.
Comme vous voulez.
KMO est un indice qui vous indique si les corrélations partielles sont raisonnablement petites pour soumettre des données à l'analyse factorielle. Parce que dans l'analyse factorielle, nous nous attendons généralement à ce qu'un facteur charge plus de seulement deux variables. Votre KMO est suffisamment bas. Vous pouvez l'améliorer si vous passez des variables d'analyse avec de faibles valeurs KMO individuelles (celles-ci forment la diagonale de la matrice anti-image , vous pouvez demander d'afficher cette matrice dans la procédure SPSS Factor). La transformation de variables en moins asymétriques peut-elle récupérer KMO? Qui sait. Peut être. Notez que KMO est important principalement dans le modèle d'analyse factorielle, pas dans le modèle d'analyse des composants principaux: dans FA, vous ajustez les corrélations par paires, tandis que dans PCA, vous ne le faites pas.

ttnphns
la source

2

+1 à @ttnphns, je veux juste développer un peu le point # 2. Les transformations sont souvent utilisées pour stabiliser l'inclinaison. Comme le souligne @ttnphns, vous devez les utiliser avant d'exécuter vos analyses. Les transformations logarithmiques font partie de la famille des transformations de puissance Box-Cox. Vous voudrez considérer un éventail plus large de transformations possibles que de simples journaux (par exemple, racine carrée, réciproque, etc.). Le choix entre différentes bases logarithmiques n'a aucun effet sur la force de la transformation. Lorsque les gens vont travailler mathématiquement avec la variable transformée, les journaux naturels sont parfois préférés, car le journal naturel peut rendre les mathématiques plus propres dans certains cas. Si vous ne vous souciez pas de cela, vous voudrez peut-être choisir une base qui facilitera l'interprétation. Autrement dit, chaque augmentation d'unité dans la nouvelle échelle représentera une base-augmentation de l'échelle d'origine (par exemple, si vous avez utilisé la base de bûches 2, alors chaque unité serait une augmentation de 2 fois, la base 10 signifie que chaque unité serait une augmentation de 10 fois, etc.), donc cela peut être bien pour choisir une base telle que vos données s'étendent sur plusieurs unités dans l'échelle transformée.

gung - Réintégrer Monica
la source

Variables asymétriques dans l'ACP ou l'analyse factorielle

Réponses: