ACP et analyse factorielle exploratoire sur le même ensemble de données: différences et similitudes; modèle factoriel vs PCA

Les deux modèles - à composante principale et à facteur commun - sont des modèles de régression linéaire simples similaires prédisant les variables observées par des variables latentes. Ayons des variables centrées V1 V2 ... Vp et nous avons choisi d'extraire 2 composantes / facteurs FI et FII . Ensuite, le modèle est le système d'équations:

$V_1 = a_{1I}F_I + a_{1II}F_{II} + E_1$

$V_2 = a_{2I}F_I + a_{2II}F_{II} + E_2$

$...$

$V_p = …$

où le coefficient a est une charge, F est un facteur ou une composante et la variable E est des résidus de régression. Ici, le modèle FA diffère du modèle PCA par le fait que FA impose l'exigence: les variables E1 E2 ... Ep (les termes d'erreur qui ne sont pas corrélés avec les F s) ne doivent pas être corrélés entre eux ( voir photos ). Ces variables d'erreur FA appellent des "facteurs uniques"; leurs variances sont connues («unicité»), mais leurs valeurs de même ne le sont pas. Par conséquent, les scores factoriels F sont calculés uniquement comme de bonnes approximations, ils ne sont pas exacts.

(Une présentation en algèbre matricielle de ce modèle d'analyse factorielle commune se trouve dans la note de bas de page ) $^1$

Alors qu'en PCA, les variables d'erreur de prédiction de différentes variables peuvent être librement corrélées: rien ne leur est imposé. Ils représentent ce "scories" pour lequel nous avons pris les dimensions p-2 laissées pour compte. Nous connaissons les valeurs de E et nous pouvons donc calculer les scores des composants F en tant que valeurs exactes.

C'était la différence entre le modèle PCA et le modèle FA.

C'est en raison de cette différence décrite ci-dessus, que FA est capable d'expliquer les corrélations par paires (covariances). PCA ne peut généralement pas le faire (sauf si le nombre de composants extraits = p ); il ne peut expliquer que la variance multivariée . Ainsi, tant que le terme «analyse factorielle» est défini via le but d'expliquer les corrélations, l'ACP n'est pas l' analyse factorielle. Si l '"analyse factorielle" est définie plus largement comme une méthode fournissant ou suggérant des "traits" latents qui pourraient être interprétés, l'ACP peut être considérée comme une forme spéciale et la plus simple d' analyse factorielle. $^2$

Parfois - dans certains ensembles de données sous certaines conditions - l'ACP laisse des termes E qui ne sont presque pas intercorrélés. L'ACP peut alors expliquer les corrélations et devenir comme FA. Ce n'est pas très rare avec des ensembles de données avec de nombreuses variables. Cela a amené certains observateurs à affirmer que les résultats de l'ACP se rapprochent des résultats de l'AF à mesure que les données augmentent. Je ne pense pas que ce soit une règle, mais la tendance peut en effet être. Quoi qu'il en soit, compte tenu de leurs différences théoriques, il est toujours bon de choisir la méthode consciemment. L'AF est un modèle plus réaliste si vous voulez réduire les variables aux latences que vous allez considérer comme de véritables traits latents se tenant derrière les variables et les corrélant.

Mais si vous avez un autre objectif - réduire la dimensionnalité tout en gardant autant que possible les distances entre les points du nuage de données - PCA est meilleur que FA. (Cependant, la procédure de mise à l'échelle multidimensionnelle itérative (MDS) sera encore meilleure. PCA équivaut à MDS métrique non itératif.) que possible, par quelques dimensions - PCA est un choix optimal.

Modèle de données d'analyse factorielle: , où est desdonnées analysées (colonnes centrées ou normalisées), estdes valeurs de facteur communes (les vraies inconnues, pas des scores de facteur) avec l'unité variance, est unematrice de chargements de facteurs communs (matrice de motifs), estdes valeurs de facteurs uniques (inconnues), est levecteur des chargements de facteurs uniques égal à la racine carrée des particularités ( ). Portion $^1$ $\mathbf {V=FA'+E}diag \bf(u)$ $\bf V$ n cases x p variables $\bf F$ n x m $\bf A$ p x m $\bf E$ n x p $\bf u$ p $\bf u^2$ E" pour plus de simplicité, comme c'est le cas dans les formules ouvrant la réponse. pourrait simplement être étiqueté comme " $\mathbf E diag \bf(u)$

Hypothèses principales du modèle:

variables et (facteurs communs et uniques, respectivement) ont des moyennes nulles et des variances unitaires; est généralement supposé normal multivarié mais dans le cas général n'a pas besoin d'être normal multivarié (si les deux sont supposés normaux multivariés alors $\bf F$ $\bf E$ $\bf E$ $\bf F$ $\bf V$ est aussi);
variables ne sont pas corrélées entre elles et ne sont pas corrélées avec lesvariables $\bf E$ $\bf F$

Il résulte dumodèle d'analyse factoriellecommuneque les charges demfacteurs communs (m<pvariables), également notées , devraient reproduire fidèlement les covariances (ou corrélations) observées entre les variables, . De sorte que si les facteurs sont orthogonaux, lethéorèmefondamental desfacteursstipule que $^2$ $\bf A$ $\bf A_{(m)}$ $\bf \Sigma$

et, $\bf \hat{\Sigma} = AA'$ $\bf \Sigma \approx \hat{\Sigma} + \it diag \bf (u^2)$

où est la matrice des covariances reproduites (ou corrélations) avec des écarts ordinaires ( les « points communs ») sur sa diagonale; et les variances uniques ("unicité") - qui sont des variances moins les communautés - sont le vecteur . L'écart hors diagonale ( ) est dû au fait que le facteur est un modèle théorique générant des données, et en tant que tel, il est plus simple que les données observées sur lesquelles il a été construit. Les principales causes de l'écart entre les covariances (ou corrélations) observées et reproduites peuvent être: (1) le nombre de facteurs m n'est pas statistiquement optimal; (2) corrélations partielles (ce sont $\bf \hat{\Sigma}$ $\bf u^2$ $\approx$ p(p-1)/2facteurs qui n'appartiennent pas à des facteurs communs) sont prononcés; (3) les communautés n'étaient pas bien évaluées, leurs valeurs initiales avaient été médiocres; (4) les relations ne sont pas linéaires, l'utilisation d'un modèle linéaire est discutable; (5) le "sous-type" du modèle produit par la méthode d'extraction n'est pas optimal pour les données (voir les différentes méthodes d'extraction ). En d'autres termes, certaines hypothèses de données FA ne sont pas entièrement satisfaites.

Quant au PCA simple , il reproduit les covariances par les chargements exactement lorsque m = p (tous les composants sont utilisés) et il ne le fait généralement pas si m < p (seuls quelques premiers composants sont conservés). Le théorème des facteurs pour l'ACP est:

, $\bf \Sigma= AA'_{(p)} = AA'_{(m)} + AA'_{(p-m)}$

les charges et les charges abandonnées sont donc des mélanges de communautés et d'unicité et ni individuellement ne peuvent aider à rétablir les covariances. Plus m est proche de p , mieux l'APC restaure les covariances, en règle générale, mais un petit m (qui est souvent de notre intérêt) n'aide pas. Ceci est différent de FA, qui vise à rétablir les covariances avec un nombre optimal de facteurs assez petit. Si s'approche de la diagonalité, PCA devient comme FA, avec $\bf A_{(m)}$ $\bf A_{(p-m)}$ $\bf AA'_{(p-m)}$ restaurer toutes les covariances. Cela arrive occasionnellement avec PCA, comme je l'ai déjà mentionné. Mais PCA n'a pas la capacité algorithmique de forcer une telle diagonalisation. Ce sont les algorithmes FA qui le font. $\bf A_{(m)}$

FA, et non PCA, est un modèle de génération de données: il suppose peu de «vrais» facteurs communs (de nombre généralement inconnu, donc vous essayez m dans une plage) qui génèrent des valeurs «vraies» pour les covariances. Les covariances observées sont les "vraies" + petits bruits aléatoires. (C'est en raison de la diagonalisation effectuée qui a laissé le seul restaurateur de toutes les covariances, que le bruit ci-dessus peut être petit et aléatoire.) Essayer de faire correspondre plus de facteurs que les quantités optimales à une tentative de sur-ajustement, et pas nécessairement une tentative de sur-ajustement efficace . $\bf A_{(m)}$

Les deux FA et PCA visent à maximiser , mais pour PCA c'est le seul objectif; pour FA, c'est l'objectif concomitant, l'autre étant de diagonaliser les particularités. Cette trace est la somme des valeurs propres de l'ACP. Certaines méthodes d'extraction dans l'AF ajoutent des objectifs plus concomitants au détriment de la maximisation de la trace, il n'est donc pas d'une importance capitale. $trace(\bf A'A_{(m)})$

Pour résumer les différences expliquées entre les deux méthodes. FA vise ( directement ou indirectement ) à minimiser les différences entre les éléments individuels hors diagonale correspondants de et . Un modèle d'AF réussi est celui qui laisse des erreurs pour les covariances petites et aléatoires (normales ou uniformes autour de 0, pas de valeurs aberrantes / queues grasses). L'ACP maximise seulement qui est égal à (et $\bf \Sigma$ $\bf AA'$ $trace(\bf AA')$ $trace(\bf A'A)$ est égal à la matrice de covariance des composantes principales, qui est la matrice diagonale). L'ACP n'est donc pas "occupée" par toutes les covariances individuelles: elle ne peut tout simplement pas, étant simplement une forme de rotation orthogonale des données. $\bf A'A$

Grâce à la maximisation de la trace - la variance expliquée par m composants - l'ACP tient compte des covariances, car la covariance est une variance partagée. En ce sens, l'ACP est une "approximation de bas rang" de toute la matrice de covariance des variables. Et vue du point de vue des observations, cette approximation est l’approximation de la matrice d’observations à distance euclidienne (c’est pourquoi la PCA est une MDS métrique appelée «analyse des coordonnées principales). Ce fait ne devrait pas nous faire oublier que la PCA ne modélise pas matrice de covariance (chaque covariance) générée par quelques traits latents vivants imaginables comme transcendants vers nos variables; l'approximation PCA reste immanente, même si elle est bonne: c'est la simplification des données.

Si vous voulez voir des calculs étape par étape effectués en PCA et FA, commentés et comparés, veuillez regarder ici .

ttnphns
la source

C'est une excellente réponse.

Subhash C. Davar

+1 pour m'apporter une nouvelle perspective de la visualisation de PCA. Maintenant, si je comprends bien, PCA et FA peuvent expliquer la variance des variables observées, et puisque FA impose que les termes d'erreur pour chaque variable ne soient pas corrélés, alors que PCA ne fait pas une telle dictée, donc FA peut capturer toute la covariance dans les variables observées, mais PCA ne parvient pas à le faire, car dans PCA, les termes d'erreur peuvent également contenir une certaine covariance des variables observées, à moins que nous n'utilisions tout le PC pour représenter les variables observées, non?

avocat

Exactement. L'ACP peut non seulement sous-estimer une valeur de covariance (comme vous le pensez probablement), mais également la surestimer. En bref, a1 * a2 <> Cov12, qui est un comportement normal pour PCA. Pour FA, ce serait le signe d'une solution sous-optimale (par exemple, un nombre incorrect de facteurs extraits).

ttnphns

Σ = W W^{⊤} + σ^{2} I

$\Sigma = WW^\top+\sigma^2 I$

Σ = W W^{⊤} + Ψ

$\Sigma = WW^\top+\Psi$

Ψ

$\Psi$

Amoeba dit Reinstate Monica

Σ

$\Sigma$

W W^{'}

$WW'$

W

$W$

Ψ

$\Psi$

σ^{2}

$\sigma^2$

J'ai fourni mon propre compte rendu des similitudes et des différences entre PCA et FA dans le fil suivant: Y a - t-il une bonne raison d'utiliser PCA au lieu de EFA? De plus, l'ACP peut-elle se substituer à l'analyse factorielle?

Notez que mon compte est quelque peu différent de celui de @ttnphns (comme présenté dans sa réponse ci-dessus). Ma principale affirmation est que PCA et FA ne sont pas aussi différents qu'on le pense souvent. Ils peuvent en effet fortement différer lorsque le nombre de variables est très faible, mais tendent à donner des résultats assez similaires une fois le nombre de variables dépassé une dizaine. Voir ma réponse [longue!] Dans le fil de discussion pour les détails mathématiques et les simulations de Monte Carlo. Pour une version beaucoup plus concise de mon argumentation, voir ici: Dans quelles conditions PCA et FA produisent-ils des résultats similaires?

Ici, je voudrais répondre explicitement à votre question principale: y a-t-il quelque chose de mal à effectuer PCA et FA sur le même ensemble de données? Ma réponse à cela est: Non.

Lorsque vous exécutez PCA ou FA, vous ne testez aucune hypothèse. Les deux sont des techniques exploratoires utilisées pour mieux comprendre les données. Alors pourquoi ne pas explorer les données avec deux outils différents? En fait, faisons-le!

Exemple: ensemble de données sur le vin

$n=178$ $p=13$

Analyse PCA et FA de l'ensemble de données sur le vin

amibe dit réintégrer Monica
la source

If the results turn out to be very similar, then you can decide to stick with only one approach. Sûr. Combien similaires alors? If the results turn out to be very different, then maybe it tells you something about your dataC'est parfaitement mystique et ésotérique.

ttnphns

Hmmm, désolé si ce n'était pas clair. Ce que je voulais dire, c'est que s'il y a beaucoup de variables et que PCA donne des chargements très différents de FA, cela nous dit quelque chose. Peut-être que les communautés sont très faibles (c'est-à-dire que la matrice de corrélation est dominée par la diagonale et les éléments hors diagonale sont petits). Cela peut être une observation intéressante. Si pour une raison quelconque, j'analysais le même ensemble de données avec PCA et FA et obtenais des résultats très différents, je l'étudierais plus avant. Est-ce que ça fait du sens?

amibe dit Réintégrer Monica

@ttnphns: J'ai fait une mise à jour avec un exemple élaboré pour un ensemble de données particulier. Je espère que vous apprécierez! Voir aussi ma (nouvelle) réponse liée. C'est la première fois que je fais un biplot FA, et nos conversations précédentes m'ont beaucoup aidé pour cela.

amibe dit Réintégrer Monica

ACP et analyse factorielle exploratoire sur le même ensemble de données: différences et similitudes; modèle factoriel vs PCA

Réponses:

Exemple: ensemble de données sur le vin