Dans quelles conditions PCA et FA donnent-ils des résultats similaires?

Dans quelles conditions l'analyse des composants principaux (ACP) et l'analyse factorielle (AF) devraient-elles donner des résultats similaires?

pca factor-analysis Statistiques
la source

Laisser

L

$\bf L$ être les charges (pas les vecteurs propres) des p-mderniers composants principaux - ceux que vous supprimez dans l'ACP ( pc'est le nombre de variables et mle nombre de composants ou de facteurs que vous avez décidé d'extraire). Si

L L^{'}

$\bf LL'$ est presque diagonale, vos résultats PCA sont similaires aux résultats FA. Quelques questions à lire: stats.stackexchange.com/q/123063/3277 , stats.stackexchange.com/q/94048/3277 .

ttnphns

En d'autres termes: lorsque l'ACP arrive à isoler le bruit spécifique à une variable du signal (facteurs communs) avec autant de succès que l'analyse factorielle le fait régulièrement. PCA, contrairement à FA, n'est pas destiné à faire ce travail, mais dans certaines conditions, il semble souvent le faire. Certaines de ces conditions: 1) psont grandes; 2) le bruit est faible pour toutes les variables; 3) le bruit est à peu près égal pour toutes les variables.

ttnphns

C'est une excellente question, mais malheureusement (ou peut-être heureusement?) Je n'ai écrit que très récemment une très longue réponse dans un fil connexe , répondant à votre question presque exactement. Je vous demanderais de bien vouloir y regarder et voir si cela répond à votre question.

Très brièvement, si nous nous concentrons uniquement sur les chargements PCA et FA $\mathbf W$ , alors la différence est que PCA trouve $\mathbf W$ pour reconstruire la matrice de covariance (ou corrélation) de l'échantillon $\mathbf C$ aussi proche que possible:

C \approx W W^{⊤},

$\mathbf C \approx \mathbf W \mathbf W^\top,$ alors que FA trouve

W

$\mathbf W$ pour reconstruire la partie hors diagonale de la matrice de covariance (ou corrélation) uniquement:

o f f d i a g {C} \approx W W^{⊤} .

$\mathrm{offdiag}\{\mathbf C\} \approx \mathbf W \mathbf W^\top.$ J'entends par là que FA ne se soucie pas quelles valeurs

W W^{⊤}

$\mathbf W \mathbf W^\top$ a sur la diagonale, il ne se soucie que de la partie hors diagonale.

Dans cet esprit, la réponse à votre question devient facile à voir. Si le nombre $n$ de variables (taille de $\mathbf C$ ) est grande, la partie hors diagonale de $\mathbf C$ est presque toute la matrice (la diagonale a la taille $n$ et toute la taille de la matrice $n^2$ , donc la contribution de la diagonale est seulement $1/n \to 0$ ), et nous pouvons donc nous attendre à ce que PCA se rapproche bien de FA. Si les valeurs diagonales sont plutôt petites, alors encore une fois, elles ne jouent pas beaucoup de rôle pour PCA, et PCA finit par être proche de FA, exactement comme @ttnphns l'a dit ci-dessus.

Si, en revanche, $\mathbf C$ est soit petit soit fortement dominé par la diagonale (en particulier s'il a des valeurs très différentes sur la diagonale), alors l'ACP devra biaiser $\mathbf W$ vers la reproduction de la diagonale également, et finira donc par être très différent de FA. Un exemple est donné dans ce fil:

Pourquoi l'ACP et l'analyse factorielle renvoient-ils des résultats différents dans cet exemple?

amibe
la source

Dans votre réponse, vous déclarez que `` minimiser

| | C - W W^{T} - Ψ | |^{2}

$||C−WW^T−\Psi||^2$ '' donne les charges d'analyse factorielle. (J'interprète

| | ∙ | |^{2}

$||\bullet||^2$ comme la norme Frobenius au carré.) Où puis-je trouver une preuve de cette affirmation? Pour PCA, cela découle du théorème d'Eckart-Young, mais je ne vois pas comment cela s'applique à FA.

stats

Connexes, ttnphns affirme que la minimisation

| | X - X_{k} | |^{2}

$||X−X_k||^2$ équivaut à minimiser

| | X^{T} X - X_{k}^{T} X_{k} | |^{2}

$||X^TX−X_k^TX_k||^2$ . Comment cela peut-il être démontré?

stats

À votre première question. Oui, c'est la norme Frobenius. Contrairement à PCA, FA est plus un cadre qu'une méthode définie avec précision; il existe différentes «méthodes d'extraction des facteurs», ce qui donne des résultats non identiques. Bien sûr, il ne peut y avoir aucune preuve pour toutes les versions de FA. Cependant, l'une des méthodes les plus anciennes / les plus simples / les plus répandues consiste à trouver

W

$W$ et

Ψ

$\Psi$ directement en minimisant cette fonction de coût (initialiser

Ψ

$\Psi$ au hasard, résoudre pour

W

$W$ via PCA, mise à jour

Ψ

$\Psi$ , etc. jusqu'à la convergence). C'est ce qu'on appelle la méthode du "facteur principal itéré", ou méthode similaire. Alors rien ne reste à prouver :)

amoeba

À votre deuxième question. Je ne sais pas si cela est vrai en général (c'est peut-être le cas, peut-être pas), mais je ne l'utilise jamais dans ma réponse liée. Regardez attentivement ma "mise à jour 2", cette déclaration n'est pas nécessaire.

amoeba

Dans quelles conditions PCA et FA donnent-ils des résultats similaires?

Réponses: