Quelles sont les hypothèses de l'analyse factorielle?

11

Je veux vérifier si j'ai vraiment compris l' analyse factorielle (FA) [classique, linéaire] , en particulier les hypothèses qui sont faites avant (et éventuellement après) FA.

Certaines des données doivent être initialement corrélées et il existe une relation linéaire possible entre elles. Après avoir effectué une analyse factorielle, les données sont normalement distribuées (distribution bivariée pour chaque paire) et il n'y a pas de corrélation entre les facteurs (communs et spécifiques), et aucune corrélation entre les variables d'un facteur et les variables d'autres facteurs.

Est-ce correct?

Sihem
la source

Réponses:

12

Hypothèses de données d'entrée de FA linéaire (je ne parle pas ici des hypothèses / propriétés internes du modèle FA ou de la vérification de la qualité d'ajustement des résultats ).

  1. Échelle (intervalle ou rapport) des variables d'entrée . Cela signifie que les éléments sont soit des mesures continues, soit conceptualisés comme continus lorsqu'ils sont mesurés sur une échelle quantitative discrète. Pas de données ordinales dans FA linéaire ( lire ). Les données binaires doivent également être évitées (voir ceci , ceci ). L'AF linéaire suppose que les facteurs communs et uniques latents sont continus . Par conséquent, les variables observées qu'ils chargent doivent également être continues.
  2. Les corrélations sont linéaires . L'AF linéaire peut être effectuée sur la base de toute matrice d'association de type SSCP : corrélation Pearson, covariance, cosinus, etc. (bien que certaines méthodes / implémentations puissent se limiter aux corrélations Pearson uniquement). Notez que ce sont tous des produits d'algèbre linéaire. Bien que l'ampleur d'un coefficient de covariance reflète plus qu'une simple linéarité en relation, la modélisation dans FA linéaire est de nature linéaire même lorsque des covariances sont utilisées: les variables sont des combinaisons linéaires de facteurset donc la linéarité est impliquée dans les associations résultantes. Si vous voyez / pensez que des associations non linéaires prévalent - ne faites pas de FA linéaire ou n'essayez pas de les linéariser d'abord par certaines transformations des données. Et ne basez pas la FA linéaire sur les corrélations de Spearman ou de Kendall (Pt. 4 ici ).
  3. Pas de valeurs aberrantes - c'est comme avec toute méthode non-robuste. La corrélation de Pearson et les associations similaires de type SSCP sont sensibles aux valeurs aberrantes, alors faites attention.
  4. Des corrélations raisonnablement élevées sont présentes . L'AF est l'analyse de la corrélation, - quelle est son utilité lorsque toutes ou presque toutes les corrélations sont faibles? - pas d'Utilisation. Cependant, ce qui est une "corrélation raisonnablement élevée" dépend du domaine d'études. Il existe également une question intéressante et variée sur l'acceptation de corrélations très élevées (leur effet sur l'ACP, par exemple, est discuté ici ). Pour tester statistiquement si les données ne sont pas non corrélées, le test de sphéricité de Bartlett peut être utilisé.
  5. Les corrélations partielles sont faibles et le facteur peut être suffisamment défini . FA suppose que les facteurs sont plus généraux que le simple chargement de paires d'éléments corrélés. En fait, il y a même un conseil de ne pas extraire les facteurs chargeant décemment moins de 3 articles dans la FA explicative; et dans la confirmation FA seulement 3+ est une structure identifiée garantie . Un problème technique d'extraction appelé l'affaire Heywood a, comme l'une des raisons, la situation de trop peu d'articles sur le facteur. Kaiser-Meyer-Olkin ( KMO ) "mesure de l'adéquation de l'échantillonnage" estime pour vous à quel point les corrélations partielles dans les données par rapport aux corrélations complètes sont faibles; il peut être calculé pour chaque élément et pour toute la matrice de corrélation.
  6. Pas de multicolinéarité . Le modèle FA suppose que tous les éléments possèdent chacun un facteur unique et que ces facteurs sont orthogonaux. Par conséquent, 2 éléments doivent définir un plan, 3 éléments - un espace 3D, etc.: ples vecteurs corrélés doivent couvrir l'espace p-dim pour accueillir leurs p composants uniques mutuellement perpendiculaires. Donc, pas de singularité pour des raisons théoriques (et donc automatiquement , sans dire; et mieux ). Cependant, la multicolinéarité complète n'est pas autorisée; cependant, cela peut entraîner des problèmes de calcul dans la plupart des algorithmes FA ( voir aussi).1n observations > p variablesn>>p
  7. Distribution . En général, la FA linéaire ne nécessite pas la normalité des données d'entrée. Des distributions modérément asymétriques sont acceptables. La bimodalité n'est pas une contre-indication. La normalité est en effet supposée pour des facteurs uniques dans le modèle (ils servent d'erreurs de régression) - mais pas pour les facteurs communs et les données d'entrée ( voir aussi). Pourtant, la normalité multivariée des données peut être exigée comme hypothèse supplémentaire par certaines méthodes d' extraction (à savoir, la probabilité maximale) et en effectuant des tests asymptotiques.

1 Les méthodes ULS / minres de FA peuvent fonctionner avec une matrice de corrélation singulière et même non psd, mais strictement théoriquement une telle analyse est douteuse, pour moi.

ttnphns
la source
, pourriez-vous lire ce post , il semblait peu différent.
WhiteGirl
Si Binary data should also be avoided, quelle autre méthode d'analyse factorielle pouvons-nous faire binary data?
kittygirl
chers ttnphns; Je remarque que vous ne mentionnez pas que les données sont supposées normales et que d'autres en ligne indiquent que la normalité n'est pas requise. Ma question est de savoir si les variables latentes sont supposées normales et que les observations sont modélisées comme une somme pondérée des facteurs, cela n'implique-t-il pas alors une distribution normale sur les observations? (Je suis désolé, je suis sûr que c'est une question stupide)
user2957945
@ user2957945, le paragraphe 7 parle de normalité. L'hypothèse de normalité est nécessaire pour certaines méthodes d'extraction de facteurs et pour effectuer certains tests statistiques accompagnant facultativement l'analyse factorielle. À votre question: oui, si les facteurs sont distribués normalement et les erreurs aussi, cela signifie que les variables manifestes sont également normales.
ttnphns
ah, merci @ttnphns; désolé de vous déranger - je ne sais pas trop comment j'ai réussi à manquer ça. Apprécier ton aide.
user2957945
9

La plupart du temps, l'analyse factorielle est effectuée sans aucun test statistique en soi. Elle est beaucoup plus subjective et interprétative que des méthodes telles que la régression, la modélisation d'équations structurelles, etc. Et généralement, ce sont les tests inférentiels qui viennent avec des hypothèses: pour que les valeurs de p et les intervalles de confiance soient corrects, ces hypothèses doivent être satisfaites.

Maintenant, si la méthode pour choisir le nombre de facteurs est définie comme la méthode du maximum de vraisemblance, alors il y a une hypothèse qui va avec: que les variables entrées dans l'analyse factorielle auront des distributions normales.

Que les variables d'entrée aient des corrélations non nulles est une sorte d'hypothèse en ce que sans que cela soit vrai, les résultats de l'analyse factorielle seront (probablement) inutiles: aucun facteur n'apparaîtra comme variable latente derrière un ensemble de variables d'entrée.

Dans la mesure où il n'y a "aucune corrélation entre les facteurs (communs et spécifiques), et aucune corrélation entre les variables d'un facteur et les variables d'autres facteurs", ce ne sont pas des hypothèses universellement émises par les analystes des facteurs, bien que parfois l'une ou l'autre condition (ou une approximation pourrait être souhaitable. Cette dernière, lorsqu'elle tient, est appelée «structure simple».

Il existe une autre condition qui est parfois traitée comme une "hypothèse": que les corrélations d'ordre zéro (vanille) parmi les variables d'entrée ne soient pas submergées par de grandes corrélations partielles. En résumé, cela signifie que les relations doivent être solides pour certains couples et faibles pour d'autres; sinon, les résultats seront "boueux". Ceci est lié à l'opportunité d'une structure simple et elle peut en fait être évaluée (mais pas formellement "testée") en utilisant la statistique de Kaiser-Meyer-Olkin, ou le KMO. Les valeurs KMO proches de 0,8 ou 0,9 sont généralement considérées comme très prometteuses pour les résultats de l'analyse factorielle informative, tandis que les KMO proches de 0,5 ou 0,6 sont beaucoup moins prometteurs et ceux inférieurs à 0,5 peuvent inciter un analyste à repenser sa stratégie.

rolando2
la source
Comme je l'ai lu, cette analyse factorielle commence par une certaine corrélation avec les variables et nous essayons de rendre cette corrélation de plus en plus claire
Sihem
1
Après l'application de l'analyse factorielle, si nous avons utilisé la rotation orthogonale, nous serons sûrs qu'il n'y a pas de corrélation entre les facteurs
Sihem
2

Les hypothèses sous-jacentes à l'analyse factorielle exploratoire sont les suivantes:
• Niveau de mesure d'intervalle ou de rapport
• Échantillonnage aléatoire
• La relation entre les variables observées est linéaire
• Une distribution normale (chaque variable observée)
• Une distribution normale bivariée (chaque paire de variables observées)
• La normalité multivariée
Au-dessus de le fichier SAS

Chris Kelly
la source