Que maximisent les premiers facteurs de l'analyse factorielle?

12

Dans l'analyse des composantes principales, les premières composantes principales sont les directions orthogonales avec la variance maximale. En d'autres termes, la première composante principale est choisie pour être la direction de la variance maximale, la deuxième composante principale est choisie pour être la direction orthogonale à la première avec la variance maximale, et ainsi de suite.kkk

Existe-t-il une interprétation similaire pour l'analyse factorielle? Par exemple, je pense que les premiers facteurs sont les facteurs qui expliquent le mieux les composantes hors diagonale de la matrice de corrélation d' origine (au sens, par exemple, de l'erreur quadratique entre la matrice de corrélation d'origine et la matrice de corrélation définie par le facteurs). Est-ce vrai (ou y a-t-il quelque chose de similaire que nous pouvons dire)?k

raegtin
la source
Bien que je sois d'accord avec presque tout ce que @NRH a écrit dans sa réponse (+1), la réponse courte à votre dernière question est que oui, c'est exactement vrai . Notez que dans FA, les facteurs peuvent également être choisis pour être orthogonaux, comme dans PCA. La différence réside uniquement dans la reproduction de toute la matrice de corrélation (ACP) par rapport à la reproduction uniquement de sa partie hors diagonale (FA). Pour une discussion plus longue, voir mes réponses dans les conditions de similitude de l'APC et de l'analyse factorielle et y a-t-il une bonne raison d'utiliser l'APC au lieu de l'EFA?
amibe dit Réintégrer Monica
Je ne sais pas vraiment si FA "minimise les covariances partielles (somme des) au carré", car il existe un critère de rotation / extraction appelé "MinRes" dont la justification est exactement la suivante. Alors pourquoi lui donner un nom distinctif? Peut-être que les routines standard pour trouver la solution FA obtiennent mathématiquement des résultats identiques si le nombre de k facteurs reproduit parfaitement les covariances - mais comme k est une estimation, il se pourrait qu'en cas d'imperfection / sous-estimation, la solution FA ne soit pas identique à la solution MinRes. Eh bien, je dis: peut-être - je voudrais voir une déclaration explicite.
Gottfried Helms

Réponses:

7

L'ACP est avant tout une technique de réduction des données dont l'objectif est d'obtenir une projection des données sur un espace de dimension inférieure. Deux objectifs équivalents sont soit de maximiser itérativement la variance, soit de minimiser l'erreur de reconstruction. Ceci est en fait élaboré dans certains détails dans les réponses à cette question précédente .

En revanche, l'analyse factorielle est principalement un modèle génératif d'un vecteur de données à dimensions disant que où est le vecteur à dimensions de facteurs latents, est avec et est un vecteur d'erreurs non corrélées. La matrice est la matrice des chargements factoriels . Cela donne une paramétrisation spéciale de la matrice de covariance comme Le problème avec ce modèle est qu'il est surparamétrisé. Le même modèle est obtenu si est remplacé parX X = A S + ϵ S q A p × k k < p ϵ A Σ = A A T + D A A R k × k R A ΣpX

X=AS+ϵ
SqAp×kk<pϵA
Σ=AAT+D
AAR pour toute matrice orthogonale , ce qui signifie que les facteurs eux-mêmes ne sont pas uniques. Différentes suggestions existent pour résoudre ce problème, mais il n'y a pas une seule solution qui vous donne des facteurs avec le type d'interprétation que vous demandez. Un choix populaire est la rotation varimax . Cependant, le critère utilisé ne détermine que la rotation. L'espace de colonne couvert par ne change pas, et comme cela fait partie de la paramétrisation, il est déterminé par la méthode utilisée pour estimer - par maximum de vraisemblance dans un modèle gaussien, par exemple.k×kRAΣ

Par conséquent, pour répondre à la question, les facteurs choisis ne sont pas donnés automatiquement à l'aide d'un modèle d'analyse factorielle, il n'y a donc pas d'interprétation unique des premiers facteurs. Vous devez spécifier la méthode utilisée pour estimer (l'espace de colonne de) et la méthode utilisée pour choisir la rotation. Si (toutes les erreurs ont la même variance), la solution MLE pour l'espace de colonne de est l'espace couvert par les principaux vecteurs de composants principaux, qui peut être trouvé par une décomposition en valeurs singulières. Il est bien sûr possible de choisir de ne pas faire tourner et de déclarer ces principaux vecteurs composants comme facteurs. A D = σ 2 I A qkAD=σ2IAq

Edit: Pour souligner comment je le vois, le modèle d'analyse factorielle est un modèle de la matrice de covariance en tant que matrice de rang plus une matrice diagonale. Ainsi, l'objectif du modèle est d'expliquer au mieux la covariance avec une telle structure sur la matrice de covariance. L'interprétation est qu'une telle structure sur la matrice de covariance est compatible avec un facteur de dimension non observé . Malheureusement, les facteurs ne peuvent pas être récupérés de manière unique, et la façon dont ils peuvent être choisis dans l'ensemble des facteurs possibles n'a aucun rapport avec l'explication des données. Comme c'est le cas avec l'ACP, on peut standardiser les données à l'avance et ainsi adapter un modèle qui tente d'expliquer la matrice de corrélation comme un rang plus une matrice diagonale. k kkkk

NRH
la source
1
Oui, je comprends qu'il n'y a pas un choix unique de facteurs k (puisque nous pouvons les faire pivoter et obtenir le même modèle). Mais un choix de k facteurs sélectionnés par l'analyse factorielle fait-il une sorte d '"explication maximale de la corrélation"?
raegtin
1
@raegtin, j'ai édité la réponse pour expliquer mon point de vue, qu'il s'agit d'un modèle de la matrice de covariance. Tout choix de facteurs obtenus par rotation est, à mon avis, tout aussi bon ou mauvais pour expliquer les covariances dans les données car elles produisent la même matrice de covariance.
NRH
1
Merci pour la mise à jour, c'est une excellente explication de FA! Donc, quand vous dites "l'objectif du modèle est d'expliquer au mieux la covariance", voulez-vous dire que les facteurs k maximisent vraiment la quantité de covariance expliquée?
raegtin
1
@raegtin, oui, je considère le modèle comme un modèle de la matrice de covariance, et lorsque vous estimez le modèle, il est juste de dire que vous maximisez la quantité de covariance expliquée.
NRH
@raegtin et NRH (+1 btw): Juste pour clarifier. Les deux commentaires ci-dessus sont corrects si par «covariance» nous comprenons la «partie hors diagonale de la matrice de covariance».
amibe dit Réintégrer Monica
3

@RAEGTIN, je pense que vous pensez bien. Après extraction et rotation préalable, chaque facteur successif représente de moins en moins de covariation / corrélation, tout comme chaque composante successive représente de moins en moins de variance: dans les deux cas, les colonnes d'une matrice de chargement A vont dans l'ordre de chute de somme des éléments carrés (chargements) en eux. La charge est un facteur et une variable de corrélation; par conséquent, on peut dire que le premier facteur explique la plus grande partie du carré r "global" dans la matrice R , le deuxième facteur est le deuxième ici, etc. La différence entre FA et PCA, cependant, dans la prédiction des corrélations par chargements est la suivante: FA est "calibré" pour restaurer Rassez finement avec juste m facteurs extraits (m facteurs <p variables), tandis que PCA est grossier dans sa restauration par m composants, - il a besoin de tous les p composants pour restaurer R sans erreur.

PS Juste pour ajouter. En FA, une valeur de chargement "consiste" en une communauté propre (une partie de la variance responsable de la corrélation) tandis qu'en PCA, un chargement est un mélange de communalité et d'uniformité de la variable et prend donc en compte la variabilité.

ttnphns
la source