Certains articles scientifiques rapportent les résultats d'une analyse parallèle de l'analyse factorielle de l'axe principal d'une manière incompatible avec ma compréhension de la méthodologie. Qu'est-ce que je rate? Ai-je tort ou est-ce qu'ils sont.
Exemple:
- Données: La performance de 200 humains individuels a été observée sur 10 tâches. Pour chaque individu et chaque tâche, on a un score de performance. La question est maintenant de déterminer combien de facteurs sont à l'origine des performances des 10 tâches.
- Méthode: analyse parallèle pour déterminer le nombre de facteurs à retenir dans une analyse factorielle de l'axe principal.
- Exemple de résultat rapporté: «une analyse parallèle suggère que seuls les facteurs ayant une valeur propre de 2,21 ou plus devraient être conservés»
C'est absurde, non?
D'après l'article original de Horn (1965) et des tutoriels comme Hayton et al. (2004) Je comprends que l'analyse parallèle est une adaptation du critère de Kaiser (valeur propre> 1) basée sur des données aléatoires. Cependant, l'adaptation ne consiste pas à remplacer le seuil 1 par un autre nombre fixe mais une valeur seuil individuelle pour chaque facteur (et en fonction de la taille de l'ensemble de données, soit 200 fois 10 scores). En examinant les exemples de Horn (1965) et Hayton et al. (2004) et la sortie des fonctions R fa parallèle dans le paquet psych et parallèle dans les nFacteurspackage, je vois que l'analyse parallèle produit une courbe de pente descendante dans le tracé de Scree pour comparer aux valeurs propres des données réelles. Plus comme «Conserver le premier facteur si sa valeur propre est> 2,21; conserver en outre la seconde si sa valeur propre est> 1,65; … ».
Existe-t-il un cadre raisonnable, une école de pensée ou une méthodologie qui rendrait «une analyse parallèle suggère que seuls les facteurs ayant une valeur propre de 2,21 ou plus devraient être conservés»?
Références:
Hayton, JC, Allen, DG, Scarpello, V. (2004). Décisions de rétention des facteurs dans l'analyse factorielle exploratoire: un tutoriel sur l'analyse parallèle. Méthodes de recherche organisationnelle, 7 (2): 191-205.
Horn, JL (1965). Une justification et un test pour le nombre de facteurs dans l'analyse factorielle. Psychometrika, 30 (2): 179-185.
paran
pour R (sur CRAN) et pour Stata (dans Stata type findit paran).Réponses:
Il existe deux façons équivalentes d'exprimer le critère d'analyse parallèle. Mais d'abord, je dois m'occuper d'un malentendu répandu dans la littérature.
Le malentendu
La soi-disant règle de Kaiser (Kaiser n'aimait pas vraiment la règle si vous lisez son article de 1960) des valeurs propres supérieures à un sont conservées pour l'analyse des composants principaux . En utilisant la soi-disant règle de Kaiser, les valeurs propres supérieures à zéro sont conservées pour l'analyse factorielle principale / l'analyse des facteurs communs . Cette confusion est apparue au fil des années parce que plusieurs auteurs ont négligé d'utiliser le terme «analyse factorielle» pour décrire «analyse en composantes principales», alors que ce n'est pas la même chose.
Voir Clarifier en douceur l'application de l'analyse parallèle de Horn à l'analyse des composants principaux par rapport à l'analyse factorielle pour les mathématiques si vous avez besoin de convaincre sur ce point.
Critères de rétention de l'analyse parallèlep λ1,…,λp n p λ¯r1,…,λ¯rp
Pour l'analyse des composants principaux basée sur la matrice de corrélation de nombre de variables, vous avez plusieurs quantités. D'abord, vous avez les valeurs propres observées à partir d'une composition de la matrice de corrélation de vos données, . Deuxièmement, vous avez les valeurs propres moyennes des compositions propres aux matrices de corrélation d'un "grand nombre" d'ensembles de données aléatoires (non corrélés) des mêmes et que les vôtres, .
Horn encadre également ses exemples en termes de "biais d'échantillonnage" et estime ce biais pour la valeur propre (pour l'analyse en composantes principales) comme . Ce biais peut ensuite être utilisé pour ajuster les valeurs propres observées ainsi:qth εq=λ¯rq−1 λadjq=λq−εq
Compte tenu de ces quantités, vous pouvez exprimer le critère de rétention pour la valeur propre observée d'une analyse parallèle en composantes principales de deux manières mathématiquement équivalentes:qth
Qu'en est-il de l'analyse factorielle principale / analyse factorielle commune? Ici, nous devons garder à l'esprit que le biais est la valeur propre moyenne correspondante: (moins zéro parce que la règle de Kaiser pour la composition par répartition de la matrice de corrélation avec la diagonale remplacée par les communautés est de conserver des valeurs propres supérieures à zéro). Par conséquent, ici .εq=λ¯rq−0=λ¯rq λadjq=λq−λ¯rq
Par conséquent, les critères de rétention pour l'analyse factorielle principale / l'analyse factorielle commune doivent être exprimés comme suit:
Notez que la deuxième forme d'expression du critère de rétention est cohérente à la fois pour l'analyse des composants principaux et l'analyse des facteurs communs (c'est-à-dire parce que la définition de change en fonction des composants / facteurs, mais le la deuxième forme de critère de rétention n'est pas exprimée en termes de ).λadjq λadjq
une dernière chose ...
Tant l'analyse en composantes principales que l'analyse factorielle principale / l'analyse factorielle commune peuvent être basées sur la matrice de covariance plutôt que sur la matrice de corrélation. Étant donné que cela modifie les hypothèses / définitions concernant la variance totale et commune, seules les deuxièmes formes du critère de rétention doivent être utilisées pour baser son analyse sur la matrice de covariance.
la source
Oui, il est possible d'avoir une valeur de 2,21 si la taille de l'échantillon n'est pas infiniment grande (ou assez grande ...). C'est, en fait, la motivation derrière le développement de l'analyse parallèle comme une augmentation de la règle de valeur propre 1.
Je cite Valle 1999 sur cette réponse et j'ai mis en italique la partie qui répond directement à votre question.
Sélection du nombre de composants principaux: la variance du critère d'erreur de reconstruction par rapport à d'autres méthodes † Sergio Valle, Weihua Li et et S. Joe Qin * Industrial & Engineering Chemistry Research 1999 38 (11), 4389-4401
la source
Votre exemple n'est certainement pas clair, mais ce n'est peut-être pas un non-sens non plus. En résumé, considérons la possibilité que l'exemple fonde sa règle de décision sur la valeur propre du premier facteur simulé qui est supérieure au facteur réel du même nombre de facteurs. Voici un autre exemple dansr:
Les données sont aléatoires et il n'y a que trois variables, donc un deuxième facteur n'aurait certainement pas de sens, et c'est ce que l'analyse parallèle indique. * Les résultats corroborent également ce qu'a dit @Alexis à propos de " The Malunderstanding ".
Supposons que j'interprète cette analyse comme suit: «Une analyse parallèle suggère que seuls les facteurs [ noncomposants] dont la valeur propre est égale ou supérieure à 1,2E-6. » Cela a un certain sens car c'est la valeur de la première valeur propre simulée qui est supérieure à la valeur propre "réelle", et toutes les valeurs propres par la suite diminuent nécessairement. C'est une façon maladroite de rendre compte de ce résultat, mais cela est au moins cohérent avec le raisonnement selon lequel on devrait examiner très sceptiquement tous les facteurs (ou composants) avec des valeurs propres qui ne sont pas beaucoup plus grandes que les valeurs propres correspondantes des données simulées et non corrélées. Cela devrait être le cas de manière cohérente après la première instance sur le tracé d'éboulis où la valeur propre simulée dépasse la valeur propre réelle correspondante. Dans l'exemple ci-dessus, le troisième facteur simulé est très légèrement plus petit que le troisième facteur "réel",
* Dans ce cas, R dit: "L'analyse parallèle suggère que le nombre de facteurs = 1 et le nombre de composants = 2", mais j'espère que la plupart d'entre nous savent ne pas faire confiance à notre logiciel pour interpréter nos graphiques pour nous ... ne conserverait pas le deuxième composant simplement parce qu'il est infiniment plus grand que le deuxième composant simulé.
la source