Voici une citation du livre Bishop's "Pattern Recognition and Machine Learning", section 12.2.4 "Analyse factorielle":
Selon la partie mis en évidence, l' analyse factorielle capture la covariance entre les variables dans la matrice . Je me demande comment ?
Voici comment je le comprends. Supposons que soit la variable dimensionnelle observée , la matrice de chargement de facteur et le vecteur de score de facteur. Ensuite, nous avons c'est-à-dire et chaque colonne de est un vecteur de chargement de facteur Ici comme je l'ai écrit, a
Maintenant , voici le point, selon la partie mis en évidence, je pense que les charges de chaque colonne expliquent la covariance dans les données observées, non?
Par exemple, examinons le premier vecteur de chargement , pour , si , et , alors Je dirais que et sont fortement corrélés, alors que semble pas corrélé avec eux , n'est-ce pas? 1 ≤ i , j , k ≤ p w 1 i = 10 w 1 j = 11 w 1 k = 0,1 x i x j x k
Et si c’est ainsi que l’analyse factorielle explique la covariance entre les caractéristiques observées, alors je dirais que la PCA explique également la covariance, non?
la source
Réponses:
La distinction entre l' analyse en composantes principales et l' analyse factorielle est discutée dans de nombreux manuels et articles sur les techniques multivariées. Vous trouverez peut-être le fil de discussion complet , un plus récent et des réponses étranges sur ce site également.
Je ne vais pas le rendre détaillé. J'ai déjà donné une réponse concise et une réponse plus longue et je voudrais maintenant clarifier cela avec une paire de photos.
Représentation graphique
La photo ci-dessous explique PCA . (Ceci a été emprunté ici où l'ACP est comparée à la régression linéaire et aux corrélations canoniques. L'image est la représentation vectorielle des variables dans l' espace-sujet ; pour comprendre ce que c'est, vous voudrez peut-être lire le deuxième paragraphe.)
La configuration PCA sur cette image a été décrite ici . Je vais répéter la plupart des choses principales. Les composantes principales et se trouvent dans le même espace que celui couvert par les variables et , "plan X". La longueur au carré de chacun des quatre vecteurs est sa variance. La covariance entre et est , où est égal au cosinus de l'angle entre leurs vecteurs.P1 P2 X1 X2 X1 X2 cov12=|X1||X2|r r
Les projections (coordonnées) des variables sur les composants, les , sont les chargements des composants sur les variables: les chargements sont les coefficients de régression dans les combinaisons linéaires de variables de modélisation par composants standardisés . "Normalisé" - parce que les informations sur les variances des composants sont déjà absorbées dans les chargements (rappelez-vous que les chargements sont des vecteurs propres normalisés aux valeurs propres respectives). Et pour cette raison, et du fait que les composants ne sont pas corrélés, les chargements sont les covariances entre les variables et les composants.a
L'utilisation de PCA à des fins de dimensionnalité / réduction des données nous oblige à ne conserver que et à considérer comme le reste, ou une erreur. est la variance saisie (expliquée) par .P1 P2 a211+a221=|P1|2 P1
L'image ci-dessous montre l' analyse factorielle réalisée sur les mêmes variables et que celles décrites précédemment. (Je parlerai d' un modèle à facteur commun , car il en existe d'autres: modèle à facteur alpha, modèle à facteur d'image.) Smiley sun aide à l'éclairage.X1 X2
Le facteur commun est . C'est ce qui est analogue à la composante principale ci-dessus. Pouvez-vous voir la différence entre ces deux? Oui, clairement: le facteur ne réside pas dans l'espace "plan X" des variables .F P1
Comment obtenir ce facteur avec un seul doigt, c'est-à-dire effectuer une analyse factorielle? Essayons. Sur l'image précédente, accrochez l'extrémité de la flèche l'extrémité de votre ongle et éloignez-vous du "plan X", tout en visualisant la manière dont deux nouveaux plans apparaissent, "plan U1" et "plan U2"; ceux-ci reliant le vecteur accroché et les deux vecteurs variables. Les deux plans forment un capot, X1 - F - X2, au dessus du "plan X".P1
Continuez à tirer tout en contemplant le capot et arrêtez-vous lorsque "le plan U1" et le "plan U2" se forment à 90 degrés entre eux. Prêt, l'analyse factorielle est terminée. Eh bien oui, mais pas encore de manière optimale. Pour que tout se passe bien, comme le font les paquets, répétez l'exercice consistant à tirer la flèche, en ajoutant maintenant de petites oscillations gauche-droite de votre doigt pendant que vous tirez. Ce faisant, trouvez la position de la flèche lorsque la somme des projections au carré des deux variables dessus est maximisée , pendant que vous atteignez cet angle de 90 degrés. Arrêtez. Vous avez fait une analyse factorielle, a trouvé la position du facteur commun .F
Encore une remarque, contrairement à la composante principale , le facteur n’appartient pas à l’espace "plan X" des variables. Ce n'est donc pas une fonction des variables (la composante principale l'est, et vous pouvez vous assurer, à partir des deux images ci - dessus , que l'ACP est fondamentalement bidirectionnelle: prédit les variables par composantes et inversement). L’analyse factorielle n’est donc pas une méthode de description / simplification, comme celle de l’ACP, c’est une méthode de modélisation dans laquelle un facteur latent dirige les variables observées dans une direction.P1 F
Les chargements du facteur sur les variables ressemblent aux chargements dans PCA; ce sont les covariances et les coefficients des variables de modélisation par le facteur (normalisé). est la variance capturée (expliquée) par . Le facteur a été trouvé pour maximiser cette quantité - comme s'il s'agissait d'un composant principal. Cependant, cette variance expliquée n’est plus la variance brute des variables , mais bien leur variance par laquelle elles co-varient (corrélation). Pourquoia a21+a22=|F|2 F
Revenez à la photo. Nous avons extrait sous deux conditions. L'une était la somme maximisée des charges au carré évoquée ci-dessus. L'autre était la création des deux plans perpendiculaires, le "plan U1" contenant et et le "plan U2" contenant et . De cette façon, chacune des variables X est apparue décomposée. été décomposé en variables et , orthogonales; été décomposé en variables et , également orthogonales. Et est orthogonal à . Nous savons ce qui estF F X1 F X2 X1 F U1 X2 F U2 U1 U2 F - le facteur commun . sont appelés facteurs uniques . Chaque variable a son facteur unique. La signification est la suivante. derrière et derrière sont les forces qui empêchent et d'établir une corrélation. Mais - le facteur commun - est la force derrière et qui les met en corrélation. Et la variance expliquée se situe autour de ce facteur commun. Il s’agit donc d’une variance pure de la colinéarité. C'est cette variance qui fait ; la valeur réelle deU U1 X1 U2 X2 X1 X2 F X1 X2 cov12>0 cov12 étant déterminé par les inclinaisons des variables vers le facteur, par .a
La variance d'une variable (longueur du vecteur au carré) est donc constituée de deux parties additives disjointes: l' unicité et la communalité . Avec deux variables, comme notre exemple, nous pouvons extraire au plus un facteur commun, donc communalité = un seul chargement au carré. Avec de nombreuses variables, nous pouvons extraire plusieurs facteurs communs, et la communauté d'une variable sera la somme de ses charges au carré. Sur notre image, l’ espace commun aux facteurs est unidimensionnel (juste lui-même); quand m facteurs communs existent, cet espace est mu2 a2 F -dimensionnelle, les communalités étant des projections de variables sur l'espace et les chargements étant des variables, ainsi que des projections de ces projections sur les facteurs couvrant l'espace. La variance expliquée dans l'analyse factorielle est la variance au sein de cet espace de facteurs communs, différente de l'espace de variables dans lequel les composants expliquent la variance. L'espace des variables est dans le ventre de l'espace combiné: m commun + p facteurs uniques.
Il suffit de regarder la photo actuelle s'il vous plaît. Il y avait plusieurs variables (disons, , , ) avec lesquelles une analyse factorielle était effectuée, en extrayant deux facteurs communs. Les facteurs et couvrent le "plan de facteur" d'espace de facteur commun. Parmi le groupe de variables analysées, une seule ( ) est indiquée sur la figure. L'analyse l'a décomposé en deux parties orthogonales, la communauté et le facteur unique . La communauté se situe dans le "plan des facteurs" et ses coordonnées sur les facteurs sont les chargements par lesquels les facteurs communs chargent (= coordonnées deX1 X2 X3 F1 F2 X1 C1 U1 X1 X1 lui-même sur les facteurs). Sur la photo, les communs des deux autres variables - projections de et de - sont également affichés. Il serait intéressant de noter que les deux facteurs communs peuvent en quelque sorte être considérés comme les composantes principales de toutes ces "variables" de la communauté . Alors que les composantes principales habituelles résument par ancienneté la variance totale multivariée des variables, les facteurs résument également leur variance commune multivariée. X2 X3 1
Pourquoi avait besoin de tout ce verbiage? Je voulais juste témoigner à la demande que lorsque vous décomposez chacune des variables corrélées en deux parties latentes orthogonales, l' un (A) représentant non corrélation (orthogonalité) entre les variables et l'autre partie (B) représentant leur correlatedness (colinéarité), et vous extrayez les facteurs de la combinaison de B uniquement, vous vous retrouvez à expliquer les covariances par paires, par les charges de ces facteurs. Dans notre modèle factoriel - restauration des facteurscov12≈a1a2 covariances individuelles au moyen de charges. Dans le modèle PCA, ce n'est pas le cas puisque PCA explique la variance native non décomposée, colinéaire + orthogonale. Les composants forts que vous conservez et les composants suivants que vous supprimez sont des fusions de parties (A) et (B); par conséquent, PCA peut exploiter, par ses charges, les covariances seulement aveuglément et grossièrement.
Liste de contraste PCA vs FA
De même que dans la régression, les coefficients sont les coordonnées, sur les prédicteurs, de la ou des variable (s) dépendante (s) et de la (des) prédiction (s) ( voir image sous "Régression multiple", et ici aussi), dans FAles chargements sont les coordonnées, sur les facteurs, à la fois des variables observées et de leurs parties latentes - les communalités. Et exactement comme dans la régression, ce fait ne rendait pas les dépendants et les prédicteurs des sous-espaces les uns des autres - en FA, le même fait ne rend pas les variables observées et les facteurs latents des sous-espaces les uns des autres. Un facteur est "étranger" à une variable dans un sens assez similaire à celui d'un prédicteur est "étranger" à une réponse dépendante. Mais en ACP, il en va autrement: les composantes principales sont dérivées des variables observées et confinées à leur espace.
Donc, encore une fois, répétons que: m facteurs communs de FA ne sont pas un sous-espace des p variables d’entrée. Au contraire: les variables forment un sous-espace dans l' hyperespace d'union m + p ( m facteurs communs + p facteurs uniques). Vu sous cet angle (c’est-à-dire avec les facteurs uniques également attirés), il devient clair que l’AF classique n’est pas une technique de réduction de dimensionnalité , comme l’ACP classique, mais une technique d’ extension de dimensionnalité . Néanmoins, nous ne portons notre attention que sur une petite partie ( m dimension commune) de ce volume, car cette partie explique uniquement les corrélations.
la source
"Expliquer la covariance" et expliquer la variance
Bishop signifie en réalité une chose très simple. Sous le modèle d'analyse factorielle (éq. 12.64) la matrice de covariance de va être (éq. 12.65)Ceci est essentiellement ce que l' analyse factorielle fait : il trouve une matrice de charges et une matrice diagonale de singularités telles que la matrice de covariance observée effectivement est aussi bien que possible approximée par :Notez que les éléments diagonaux de
La partie non diagonale de est constituée de covariances entre variables; par conséquent, l'affirmation de Bishop selon laquelle les charges factorielles capturent les covariances. Le bit important ici est que les charges de facteur ne se soucient pas du tout sur les écarts individuels (diagonale de ).Σ Σ
En revanche, les chargements PCA sont des vecteurs propres de la matrice de covariance mis à l'échelle par des racines carrées de leurs valeurs propres. Si seulement composantes principales sont choisies, alors ce qui signifie que les chargements PCA tentent de reproduire la matrice de covariance entière (et non seulement sa partie non diagonale en tant que FA). C'est la principale différence entre PCA et FA.W˜ Σ m<k
D'autres commentaires
J'adore les dessins dans la réponse @ (1), mais je tiens à souligner qu'ils traitent d'une situation très spéciale de deux variables. Si seulement deux variables sont prises en compte, la matrice de covariance est , ne contient qu'un seul élément hors diagonale et un facteur suffit donc toujours pour la reproduire à 100% (alors que l'ACP aurait besoin de deux composants). Toutefois, en règle générale, s’il existe de nombreuses variables (une douzaine ou plus, par exemple), ni l’ACP ni l’ACF comportant un petit nombre de composants ne seront en mesure de reproduire intégralement la matrice de covariance; de plus, ils produiront généralement (même si ce n'est pas nécessairement!) des résultats similaires. Voir ma réponse ici pour quelques simulations à l'appui de cette affirmation et pour plus d'explications:2×2
Donc, bien que les dessins de @ttnphns puissent donner l’impression que PCA et FA soient très différents, j’estime que ce n’est pas le cas, sauf avec très peu de variables ou dans d’autres situations particulières.
Voir également:
Finalement:
Ce n'est pas nécessairement correct. Oui, dans cet exemple, et sont susceptibles d'être corrélés, mais vous oubliez d'autres facteurs. Le vecteur de chargement du deuxième facteur a peut-être de grandes valeurs pour et ; cela signifierait qu'ils sont également susceptibles d'être bien corrélés. Vous devez prendre en compte tous les facteurs pour tirer de telles conclusions.xi xj w2 xi xk
la source
so hugely different
sont à vous, pas les miens. Deuxièmement, ilit is in fact not the case, except with very few variables
s’agit d’une révélation qui doit être testée plus profondément que par le passé.