Méthodes de calcul des scores factoriels et quelle est la matrice du «coefficient de score» en ACP ou en analyse factorielle?

20

Selon ma compréhension, dans l'ACP basée sur les corrélations, nous obtenons des charges de facteur (= composant principal dans ce cas) qui ne sont que les corrélations entre les variables et les facteurs. Maintenant, lorsque je dois générer des scores factoriels dans SPSS, je peux obtenir directement les scores factoriels de chaque répondant pour chaque facteur. J'ai également observé que si je multiplie la « matrice des coefficients de score des composants » (telle que produite par SPSS) par des variables d'origine normalisées, j'obtiens les mêmes scores factoriels que ceux obtenus à partir de SPSS.

Quelqu'un peut-il m'aider à comprendre comment est calculée la «matrice de coefficient de score de composante» ou la «matrice de coefficient de score de facteur» - avec laquelle je peux calculer les scores de facteur ou de composante? Comment les différentes méthodes de scores des facteurs de calcul diffèrent-elles sur cette matrice?

Kartikeya Pandey
la source
1
Une formule est donnée par exemple ici stats.stackexchange.com/a/92512/3277 .
ttnphns
@amoeba, si l' on fait de l'ACP, le mot "score factor" signifie "score composant", ils sont équivalents. Voir le bas de la réponse liée ci-dessus - dans le modèle PCA, la formule qui est le plus souvent utilisée pour calculer les scores des facteurs dans l'AF produit alors les scores des composants exacts (standardisés).
ttnphns
2
SPSS vous affiche la matrice des coefficients B et permet également d' enregistrer (standardisés) scores que de nouvelles variables, en les ajoutant à l'ensemble de données de variables d' origine X . L'OP - Je pense - normalisé X et multuplied, XB . Et, voila, c'est ce que SPSS a ajouté à l'ensemble de données! Donc, la question du PO est que Wow! suivi de "comment B été calculé?".
ttnphns
@ttnphs vous comprenez bien ce que je voulais dire. Mais mon problème est que je supposais que si j'utilise XB pour prédire le facteur factoriel de chaque observation, alors B aurait dû être un facteur de charge, mais dans SPSS, c'est la «matrice des coefficients de score des composants» plutôt que le «facteur de rotation», c'est pourquoi Je voulais comprendre la relation ou la différence entre la «charge factorielle pivotée» et la «matrice des coefficients de score des composants».
Kartikeya Pandey
Donc, comme j'ai compris le lien, je veux juste être sûr une fois, si A est un facteur de rotation, alors (Inverse (A)) 'est "la matrice des coefficients de score des composants" qui peut également être calculée en utilisant la formule A⋅diag. Inverse ((valeurs propres))
Kartikeya Pandey

Réponses:

25

Méthodes de calcul des scores des facteurs / composantes

Après une série de commentaires, j'ai finalement décidé d'émettre une réponse (basée sur les commentaires et plus). Il s'agit de calculer les scores des composants dans l'ACP et les scores des facteurs dans l'analyse factorielle.

Scores Facteur / composant sont données par F = X B , où X sont des variables analysées ( centrées si l'analyse PCA / facteur a été basée sur covariances ou z normalisée si elle était basée sur des corrélations). B est la matrice de coefficient (ou poids) de score de facteur / composante . Comment estimer ces poids?F^=XBXB

Notation

-matrice de corrélations ou covariances variables (items), selon le facteur / l'ACP analysé.Rp x p

-matrice des charges de facteur / composant. Il peut s'agir de chargements après extraction (souvent aussi notés A ) sur lesquels les latentes sont orthogonales ou pratiquement ainsi, ou de chargements après rotation, orthogonaux ou obliques. Si la rotation étaitoblique, il doit s'agirdechargements demotif.Pp x mUNE

-matrice de corrélations entre les facteurs / composants après leur (les chargements) rotation oblique. Si aucune rotation ou rotation orthogonale n'a été effectuée, il s'agit delamatrice d'identité.Cm x m

-réduite matrice de corrélations reproduites / covariances,=PCP'(=PP'poursolutions orthogonales), il contientcommuns sur sa diagonale.R^p x p=PCP=PP

-matrice diagonale d'unicité (unicité + communauté = élément diagonal de R ). J'utilise "2" comme indice ici au lieu d'exposant ( U 2 ) pour plus de lisibilité dans les formules.U2p x pRU2

-matrice complète des corrélations / covariances, reproduites = R + U 2 .Rp x p=R^+U2

- pseudoinverse d'une matrice M ; si M est de rang complet, M + = ( M M ) - 1 M .M+MMM+=(MM)-1M

- pour une matrice carrée symétrique M son élévation à p o w e r équivaut à la composition de H K H = M , augmentant les valeurs propres à la puissance et composant de nouveau: M p o w e r = H K p o w e r H .MpowerMpowerHKH=MMpower=HKpowerH

Méthode grossière de calcul des scores de facteur / composante

Cette approche populaire / traditionnelle, parfois appelée Cattell, consiste simplement à faire la moyenne (ou à résumer) les valeurs des éléments qui sont chargés par le même facteur. Mathématiquement, cela revient à la mise en poids pour le calcul des scores F = X B . Il existe trois versions principales de l'approche: 1) Utiliser les chargements tels quels; 2) les dichotomiser (1 = chargé, 0 = non chargé); 3) Utiliser les chargements tels quels, mais les chargements à zéro inférieurs à un certain seuil.B=PF^=XB

Souvent, avec cette approche lorsque les articles sont sur la même unité d'échelle, les valeurs sont utilisées uniquement brutes; mais pour ne pas briser la logique de l'affacturage, il vaut mieux utiliser le X comme il est entré dans l'affacturage - standardisé (= analyse des corrélations) ou centré (= analyse des covariances).XX

Le principal inconvénient de la méthode grossière de calcul des scores des facteurs / composantes est, à mon avis , qu'elle ne tient pas compte des corrélations entre les éléments chargés. Si les articles chargés par un facteur sont étroitement corrélés et que l'un est chargé plus fort que l'autre, ce dernier peut raisonnablement être considéré comme un doublon plus jeune et son poids pourrait être diminué. Les méthodes raffinées le font, mais pas la méthode grossière.

Les scores grossiers sont bien sûr faciles à calculer car aucune inversion de matrice n'est nécessaire. L'avantage de la méthode grossière (expliquant pourquoi elle est encore largement utilisée malgré la disponibilité des ordinateurs) est qu'elle donne des scores plus stables d'un échantillon à l'autre lorsque l'échantillonnage n'est pas idéal (au sens de la représentativité et de la taille) ou des éléments pour les analyses n'étaient pas bien sélectionnées. Pour citer un article, "La méthode de la somme des résultats peut être plus souhaitable lorsque les échelles utilisées pour collecter les données originales ne sont pas testées et exploratoires, avec peu ou pas de preuves de fiabilité ou de validité". De plus , il ne nécessite pas de comprendre le «facteur» nécessairement comme une essence latente univariée, comme l'exige le modèle d'analyse factorielle ( voir , voir). Vous pourriez, par exemple, conceptualiser un facteur comme un ensemble de phénomènes - puis, additionner les valeurs des éléments est raisonnable.

Méthodes raffinées de calcul des scores des facteurs / composants

Ces méthodes sont ce que font les packages d'analyse factorielle. Ils estiment par différentes méthodes. Alors que les charges A ou P sont les coefficients des combinaisons linéaires pour prédire les variables par facteurs / composants, B sont les coefficients pour calculer les scores des facteurs / composants à partir des variables.BUNEPB

Les scores calculés via sont échelonnés: ils ont des variances égales ou proches de 1 (normalisées ou presque normalisées) - pas les vraies variances factorielles (qui égalent la somme des chargements de structure au carré, voir la note 3 ici ). Ainsi, lorsque vous devez fournir des scores de facteur avec la variance du facteur réel, multipliez les scores (en les normalisant à st.dev.1) par la racine carrée de cette variance.B

Vous pouvez conserver de l'analyse effectuée, pour pouvoir calculer les scores des nouvelles observations de X à venir . En outre, B peut être utilisé pour pondérer les éléments constituant une échelle d'un questionnaire lorsque l'échelle est développée à partir de ou validée par l'analyse factorielle. Les coefficients (carrés) de B peuvent être interprétés comme des contributions d'éléments à des facteurs. Les coefficients peuvent être normalisés comme le coefficient de régression est normalisé β = b σ i t e mBXBB (oùσfactor=1) pour comparer les contributions des articles avec différentes variances.β=bσjetemσFunectorσFunector=1

Voir un exemple montrant les calculs effectués en PCA et en FA, y compris le calcul des scores à partir de la matrice des coefficients de score.

Une explication géométrique des chargements (sous forme de coordonnées perpendiculaires) et des coefficients de score b (coordonnées asymétriques) dans les paramètres PCA est présentée sur les deux premières images ici .uneb

Passons maintenant aux méthodes raffinées.

Les méthodes

Calcul de dans PCAB

Lorsque les charges des composants sont extraites mais non tournées, , où L est la matrice diagonale composée de valeurs propres; cette formule revient à diviser simplement chaque colonne de A par la valeur propre respective - la variance du composant.B=UNEL-1LmUNE

De manière équivalente, . Cette formule est également valable pour les composants (chargements) tournés, orthogonalement (tels que varimax) ou obliquement.B=(P+)

Certaines des méthodes utilisées dans l'analyse factorielle (voir ci-dessous), si elles sont appliquées dans l'ACP, renvoient le même résultat.

Les scores des composants calculés ont des variances 1 et ce sont de véritables valeurs standardisées des composants .

Ce qui, dans l'analyse des données statistiques, est appelé matrice de coefficient de composant principal , et s'il est calculé à partir d'une matrice de chargement complète et non tournée de quelque manière que ce soit , dans la littérature sur l'apprentissage automatique, est souvent appelée matrice de blanchiment (basée sur l'ACP) , et les composants principaux standardisés sont reconnus comme des données "blanchies".Bp x p

Calcul de dans l'analyse factorielle communeB

A la différence des scores composant, facteur scores sont jamais exactes ; ce ne sont que des approximations des vraies valeurs inconnues des facteurs. C'est parce que nous ne connaissons pas les valeurs des communités ou des particularités au niveau des cas, car les facteurs, contrairement aux composants, sont des variables externes distinctes des variables manifestes et ayant leur propre distribution, inconnue de nous. Quelle est la cause de cette indétermination du score factoriel . Notez que le problème d'indétermination est logiquement indépendant de la qualité de la solution factorielle: combien un facteur est vrai (correspond au facteur latent qui génère des données dans la population) est un autre problème que la quantité de scores d'un répondant pour un facteur vrai (estimations précises du facteur extrait).F

Étant donné que les scores factoriels sont des approximations, d'autres méthodes de calcul existent et se font concurrence.

La régression ou la méthode de Thurstone ou Thompson d'estimation des scores factoriels est donnée par , où S = P C est la matrice des charges de structure (pour les solutions de facteurs orthogonaux, nous savons A = P = S ). Le fondement de la méthode de régression se trouve dans la note de bas de page 1 .B=R-1PC=R-1SS=PCUNE=P=S1

Remarque. Cette formule pour est utilisable également avec PCA: elle donnera, en PCA, le même résultat que les formules citées dans la section précédente.B

En FA (pas PCA), les scores factoriels calculés par régression n'apparaîtront pas tout à fait "standardisés" - auront des variances non pas 1, mais égales à de régression de ces scores par les variables. Cette valeur peut être interprétée comme le degré de détermination d'un facteur (ses vraies valeurs inconnues) par des variables - le carré R de la prédiction du facteur réel par celles-ci, et la méthode de régression le maximise, - la "validité" du calcul scores. L'image2montre la géométrie. (Veuillez noter queSS r e g rSSregr(n-1)2 sera égal à la variance des scores pour toute méthode affinée, mais seulement pour la méthode de régression, cette quantité sera égale à la proportion de détermination de vrai f. valeurs par f. scores.)SSregr(n-1)

En variante de la méthode de régression, on peut utiliser à la place de R dans la formule. Elle est justifiée au motif que dans une bonne analyse factorielle, R et R sont très similaires. Cependant, lorsqu'ils ne le sont pas, en particulier lorsque le nombre de facteurs est inférieur au nombre réel de la population, la méthode produit un fort biais dans les scores. Et vous ne devez pas utiliser cette méthode de "régression R reproduite" avec l'ACP.RRRRm

La méthode de l'ACP , également connue sous le nom d'approche variable de Horst (Mulaik) ou idéale (isée) (Harman). Ceci est la méthode de régression avec R à la place de R dans sa formule. On peut facilement montrer que la formule se réduit alors à B = ( P + ) (et donc oui, nous n'avons en fait pas besoin de connaître C avec). Les scores des facteurs sont calculés comme s'il s'agissait de scores de composants.R^RB=(P+)C

[Étiquette variable « idéalisée » vient du fait que , puisque selon le facteur ou d'un composant modèle de la partie prédite des variables est X = F P ' , il suit F = ( P + ) ' X , mais nous substituer X pour l'inconnu (idéal) X , pour estimer F comme scores F ; on "idéalise" donc X. ]X^=FPF=(P+)X^XX^FF^X

Veuillez noter que cette méthode ne fait pas passer les scores des composantes de l'APC pour les scores des facteurs, car les chargements utilisés ne sont pas les chargements de l'APC mais l'analyse factorielle »; seulement que l'approche de calcul des scores reflète celle de l'ACP.

Méthode de Bartlett . Ici, . Cette méthode vise à minimiser, pour chaque répondant, la varince à travers des facteurs uniques ("erreur"). Les écarts des scores des facteurs communs résultants ne seront pas égaux et peuvent dépasser 1.B=(PU2-1P)-1PU2-1p

B=(PU2-1RU2-1P)-1/2PU2-1

B=R-1/2gHC1/2gHsvd(R1/2U2-1PC1/2)=gΔHmg

gHsvd(R-1/2PC3/2)=gΔHmg

Méthode de Krijnen et al . Cette méthode est une généralisation qui intègre les deux précédentes par une seule formule. Il n'ajoute probablement pas de nouvelles fonctionnalités nouvelles ou importantes, donc je n'y pense pas.

Comparaison entre les méthodes raffinées .

  • La méthode de régression maximise la corrélation entre les scores des facteurs et les vraies valeurs inconnues de ce facteur (c.-à-d. Maximise la validité statistique ), mais les scores sont quelque peu biaisés et ils corrèlent quelque peu incorrectement entre les facteurs (par exemple, ils sont en corrélation même lorsque les facteurs d'une solution sont orthogonaux). Ce sont des estimations des moindres carrés.

  • La méthode de l'ACP est également la méthode des moindres carrés, mais avec une validité statistique moindre. Ils sont plus rapides à calculer; ils ne sont pas souvent utilisés dans l'analyse factorielle de nos jours, en raison des ordinateurs. (Dans PCA , cette méthode est native et optimale.)

  • X

  • Les scores d' Anderson-Rubin / McDonald-Anderson-Rubin et de Green sont appelés préservation de la corrélation car ils sont calculés pour corréler avec précision les scores factoriels d'autres facteurs. Les corrélations entre les scores des facteurs sont égales aux corrélations entre les facteurs dans la solution (donc en solution orthogonale, par exemple, les scores seront parfaitement non corrélés). Mais les scores sont quelque peu biaisés et leur validité peut être modeste.

Consultez également ce tableau:

entrez la description de l'image ici

[Remarque pour les utilisateurs de SPSS: si vous effectuez une PCA (méthode d'extraction des «composants principaux») mais que vous demandez des scores de facteurs autres que la méthode de «régression», le programme ignorera la demande et vous calculera à la place les scores de «régression» (qui sont exacts scores des composants).]

Les références

  1. Grice, James W. Calcul et évaluation des scores des facteurs // Psychological Methods 2001, Vol. 6, n ° 4, 430-450.

  2. DiStefano, Christine et al. Comprendre et utiliser les scores factoriels // Évaluation pratique, recherche et évaluation, Vol 14, No 20

  3. ten Berge, Jos MFet al. Quelques nouveaux résultats sur les méthodes de prédiction des scores des facteurs préservant la corrélation // Algèbre linéaire et ses applications 289 (1999) 311-318.

  4. Mulaik, Stanley A. Fondements de l'analyse factorielle, 2e édition, 2009

  5. Harman, Harry H.Analyse factorielle moderne, 3e édition, 1976

  6. Neudecker, Heinz. Sur la meilleure prédiction affine non biaisée préservant la covariance des scores des facteurs // SORT 28 (1) janvier-juin 2004, 27-36


1F=b1X1+b2X2s1s2F

s1=b1r11+b2r12

s2=b1r12+b2r22

rXs=RbFbrs


2

entrez la description de l'image ici

ttnphns
la source
3
Belle réponse, votée! Je voulais juste vous dire que je suis impressionné par votre connaissance des statistiques en général et de l'analyse factorielle en particulier. Sera heureux de se connecter avec vous sur LinkedIn et d'autres réseaux sociaux. Soit dit en passant, pour info: le lien vers le site de votre entreprise dans votre profil est rompu.
Aleksandr Blekh
XFUNEFR-1UNE
(je+UNEU-2UNE)-1UNEU-2je
@amoeba, j'ai ajouté un peu d'informations à la réponse, en ce qui concerne votre premier commentaire. Pour votre deuxième commentaire - désolé, je pense que je ne peux pas y répondre sans me creuser dans les livres. Si vous trouvez vous-même la réponse, merci de bien vouloir l'élucider pour le public. :-)
ttnphns
1
Mise à jour incroyable @ttnphns, excellent travail. J'ai remarqué que ce fil a été vu 13k fois, il doit figurer en bonne position dans certaines recherches google populaires.
amibe dit Reinstate Monica
-2

Pour faire de l'ACP en météorologie, les coefficients de corrélation sont obtenus en utilisant soit le coefficient de corrélation de Pearson (si les variables sont dans des unités différentes, car il est impossible de normaliser les données afin qu'elles puissent être comparées directement sans aucune anomalie en raison des différences de taille / magnitude entre les données, de sorte que les coefficients de corrélation puissent simplement comparer l'étendue de la variance autour de la moyenne, pour chaque ensemble de données et entre chaque ensemble de données. Sinon, si toutes les données sont mesurées à l'aide de la même unité, il est possible d'utiliser la méthode de covariance. SPSS facilite les choses.

Ekta
la source
1
C'est totalement incompréhensible - en quoi la réponse se rapporte-t-elle à la question (c.-à-d. Le calcul des scores de composante / facteur)?
ttnphns
Ouin×p=Ep×pTZp×n