Comprendre l'analyse factorielle

8

Puis-je comprendre l'analyse factorielle de la manière suivante?

Supposons que j'ai 5 variables indépendantes (A, B, C, D, E)

L'analyse factorielle me permet de faire de (D, E) des variables dépendantes et de les faire être des combinaisons linéaires de (A, B, C).

Par conséquent, je n'aurai besoin de transporter que les données (A, B, C) et la matrice , puis je pourrai recréer les données (D, E) par les données (A, B, C) et la matrice .ΛΛ

Il ne fait que la réduction des données. Ai-je raison?

Marco
la source
5
J'ai voté pour cette question parce qu'elle est raisonnable. Les questions bien posées qui révèlent des malentendus doivent être accueillies (et votées pour indiquer cela), et non dénigrées par les downvotes, car elles peuvent susciter d'excellentes réponses comme celle que @StasK a déjà proposée ici.
whuber

Réponses:

18

Non. Dans l'analyse factorielle, toutes les variables sont des variables dépendantes et dépendent de facteurs latents (et contiennent également des erreurs de mesure). Bien que les scores factoriels soient souvent utilisés à la place des variables d'origine, ce qui peut sembler être un problème de réduction des données, c'est précisément l'objectif de l'analyse factorielle. En d'autres termes, plutôt que de dire: "Wow, j'ai beaucoup de données que je ne peux pas vraiment traiter et comprendre; puis-je trouver une astuce pour avoir moins de variables?", L'analyse factorielle est généralement effectuée dans la situation " Je ne peux pas mesurer une chose directement, donc j'essaierai différentes approches; je sais que j'aurai beaucoup de données, mais ce seraient des données liées de structure connue, et je serai en mesure d'exploiter cette structure pour en savoir plus sur cette chose que je ne pouvais pas mesurer directement ".

Ce que vous avez décrit peut être qualifié de régression multivariée (ne pas confondre avec la régression multiple, qui englobe une variable dépendante et de nombreuses variables explicatives; la régression multivariée a de nombreuses variables dépendantes et le même ensemble de variables explicatives dans chaque régression individuelle), ou des corrélations canoniques ( avec une certaine imagination cependant), ou un modèle à plusieurs indicateurs et causes multiples d'équation structurelle, peut être. Mais non, ce n'est pas une analyse factorielle.

StasK
la source
1

pour ajouter à l'excellente réponse de @ StasK, je clarifierai davantage en disant que ce problème relève du parapluie général de la modélisation d'équations structurelles (SEM). SEM est une technique qui peut être utilisée pour modéliser des structures de covariance et, bien que généralement utilisée avec des variables non observées ou latentes, elle peut également être appliquée à des modèles avec uniquement des variables observées ou manifestes. en appliquant la méthodologie et la terminologie SEM à votre problème, D et E seraient considérés comme des variables endogènes tandis que A, B et C sont des variables exogènes. l'endogenie suggère que la variance dans la variable particulière est expliquée par une autre variable tandis que l'exogenèse suggère que la variance n'est pas expliquée par une autre variable, latente ou manifeste.

werner Wothke fournit quelques bonnes diapositives introduisant SEM en utilisant SAS ici .

recherchez également le site d'ed rigdon traitant d'une variété de problèmes SEM (trop nouveau, impossible de créer un lien!).

Pour en revenir aux bases, si votre objectif est de comprendre l'analyse factorielle, je suggère de commencer par un texte appliqué comme l' analyse factorielle confirmatoire de Brown pour la recherche appliquée .

allinonemove
la source
1
La page d'Ed Rigdon est www2.gsu.edu/~mkteer . Pour rendre cette réponse encore plus complète, j'ajouterais que le SEM avec les variables observées n'a été étudié pour la première fois en économétrie que dans les années 1950 sous le titre de modèles d'équations simultanées. L'excellent livre de Ken Bollen ( amazon.com/Structural-Equations-Latent-Variables-Kenneth/dp/… ) est en fait l'un des rares livres sur SEM qui le couvre suffisamment en détail pour apprendre quelque chose d'utile.
StasK