Comment interpréter correctement une analyse parallèle dans l'analyse factorielle exploratoire?

8

Certains articles scientifiques rapportent les résultats d'une analyse parallèle de l'analyse factorielle de l'axe principal d'une manière incompatible avec ma compréhension de la méthodologie. Qu'est-ce que je rate? Ai-je tort ou est-ce qu'ils sont.

Exemple:

  • Données: La performance de 200 humains individuels a été observée sur 10 tâches. Pour chaque individu et chaque tâche, on a un score de performance. La question est maintenant de déterminer combien de facteurs sont à l'origine des performances des 10 tâches.
  • Méthode: analyse parallèle pour déterminer le nombre de facteurs à retenir dans une analyse factorielle de l'axe principal.
  • Exemple de résultat rapporté: «une analyse parallèle suggère que seuls les facteurs ayant une valeur propre de 2,21 ou plus devraient être conservés»

C'est absurde, non?

D'après l'article original de Horn (1965) et des tutoriels comme Hayton et al. (2004) Je comprends que l'analyse parallèle est une adaptation du critère de Kaiser (valeur propre> 1) basée sur des données aléatoires. Cependant, l'adaptation ne consiste pas à remplacer le seuil 1 par un autre nombre fixe mais une valeur seuil individuelle pour chaque facteur (et en fonction de la taille de l'ensemble de données, soit 200 fois 10 scores). En examinant les exemples de Horn (1965) et Hayton et al. (2004) et la sortie des fonctions R fa parallèle dans le paquet psych et parallèle dans les nFacteurspackage, je vois que l'analyse parallèle produit une courbe de pente descendante dans le tracé de Scree pour comparer aux valeurs propres des données réelles. Plus comme «Conserver le premier facteur si sa valeur propre est> 2,21; conserver en outre la seconde si sa valeur propre est> 1,65; … ».

Existe-t-il un cadre raisonnable, une école de pensée ou une méthodologie qui rendrait «une analyse parallèle suggère que seuls les facteurs ayant une valeur propre de 2,21 ou plus devraient être conservés»?

Références:

Hayton, JC, Allen, DG, Scarpello, V. (2004). Décisions de rétention des facteurs dans l'analyse factorielle exploratoire: un tutoriel sur l'analyse parallèle. Méthodes de recherche organisationnelle, 7 (2): 191-205.

Horn, JL (1965). Une justification et un test pour le nombre de facteurs dans l'analyse factorielle. Psychometrika, 30 (2): 179-185.

jhg
la source
1
Soit dit en passant, Hayton et al. Ont exigé que la forme distributionnelle des données non corrélées utilisées pour générer des valeurs propres moyennes pour estimer le "biais d'échantillonnage" ait été examinée d'un œil critique et rejetée dans Dinno, A. (2009). Explorer la sensibilité de l'analyse parallèle de Horn à la forme distributionnelle des données simulées. Multivariate Behavioral Research , 44 (3): 362–388.
Alexis
1
Voir aussi accessoirement mon package d'analyse parallèle paranpour R (sur CRAN) et pour Stata (dans Stata type findit paran).
Alexis

Réponses:

9

Il existe deux façons équivalentes d'exprimer le critère d'analyse parallèle. Mais d'abord, je dois m'occuper d'un malentendu répandu dans la littérature.

Le malentendu
La soi-disant règle de Kaiser (Kaiser n'aimait pas vraiment la règle si vous lisez son article de 1960) des valeurs propres supérieures à un sont conservées pour l'analyse des composants principaux . En utilisant la soi-disant règle de Kaiser, les valeurs propres supérieures à zéro sont conservées pour l'analyse factorielle principale / l'analyse des facteurs communs . Cette confusion est apparue au fil des années parce que plusieurs auteurs ont négligé d'utiliser le terme «analyse factorielle» pour décrire «analyse en composantes principales», alors que ce n'est pas la même chose.

Voir Clarifier en douceur l'application de l'analyse parallèle de Horn à l'analyse des composants principaux par rapport à l'analyse factorielle pour les mathématiques si vous avez besoin de convaincre sur ce point.

Critères de rétention de l'analyse parallèle
Pour l'analyse des composants principaux basée sur la matrice de corrélation de nombre de variables, vous avez plusieurs quantités. D'abord, vous avez les valeurs propres observées à partir d'une composition de la matrice de corrélation de vos données, . Deuxièmement, vous avez les valeurs propres moyennes des compositions propres aux matrices de corrélation d'un "grand nombre" d'ensembles de données aléatoires (non corrélés) des mêmes et que les vôtres, .pλ1,,λpnpλ¯1r,,λ¯pr

Horn encadre également ses exemples en termes de "biais d'échantillonnage" et estime ce biais pour la valeur propre (pour l'analyse en composantes principales) comme . Ce biais peut ensuite être utilisé pour ajuster les valeurs propres observées ainsi:qthεq=λ¯qr1λqadj=λqεq

Compte tenu de ces quantités, vous pouvez exprimer le critère de rétention pour la valeur propre observée d'une analyse parallèle en composantes principales de deux manières mathématiquement équivalentes:qth

λqadj{>1Retain.1Not retain.

λq{>λ¯qrRetain.λ¯qrNot retain.

Qu'en est-il de l'analyse factorielle principale / analyse factorielle commune? Ici, nous devons garder à l'esprit que le biais est la valeur propre moyenne correspondante: (moins zéro parce que la règle de Kaiser pour la composition par répartition de la matrice de corrélation avec la diagonale remplacée par les communautés est de conserver des valeurs propres supérieures à zéro). Par conséquent, ici .εq=λ¯qr0=λ¯qrλqadj=λqλ¯qr

Par conséquent, les critères de rétention pour l'analyse factorielle principale / l'analyse factorielle commune doivent être exprimés comme suit:

λqadj{>0Retain.0Not retain.

λq{>λ¯qrRetain.λ¯qrNot retain.

Notez que la deuxième forme d'expression du critère de rétention est cohérente à la fois pour l'analyse des composants principaux et l'analyse des facteurs communs (c'est-à-dire parce que la définition de change en fonction des composants / facteurs, mais le la deuxième forme de critère de rétention n'est pas exprimée en termes de ).λqadjλqadj

une dernière chose ...
Tant l'analyse en composantes principales que l'analyse factorielle principale / l'analyse factorielle commune peuvent être basées sur la matrice de covariance plutôt que sur la matrice de corrélation. Étant donné que cela modifie les hypothèses / définitions concernant la variance totale et commune, seules les deuxièmes formes du critère de rétention doivent être utilisées pour baser son analyse sur la matrice de covariance.

Alexis
la source
1
Génial! La première partie importante pour moi est que vos critères de rétention utilisent , c'est-à-dire une valeur seuil spécifique pour chaque facteur . La phrase discutable «l'analyse parallèle suggère que seuls les facteurs ayant une valeur propre de 2,21 ou plus devraient être conservés» est égal à . C'est impossible. Pour les vecteurs propres de l'analyse des composants principaux, additionnez à , pour l'analyse factorielle à . Un seul quel que soit n'existe que pour les données totalement non corrélées ( ) et alors c'est soit 0 (fa) ou 1 (pca). Correct? λ¯qrq q λ¯qr=2.21p<pλ¯rqn
jhg
J'avais déjà lu votre article "Clarifier doucement ..." et je l'aime beaucoup. Dans cet article, vous dites "en utilisant la soi-disant règle de Kaiser, les valeurs propres supérieures à zéro sont conservées pour l'analyse factorielle principale / l'analyse des facteurs communs" et dans l'article, il y a un commentaire similaire. D'après les mathématiques, c'est intuitif et tout à fait logique - je me demande pourquoi je ne l'ai pas rencontré auparavant. Y a-t-il d'autres articles / livres à ce sujet, ou est-ce que "Clarifier doucement ..." est le premier à clarifier doucement que zéro est la référence appropriée pour l'analyse factorielle principale (si l'on utilise le critère de Kaiser)?
jhg
2
Peut-être: ils peuvent simplement signifier que la plus petite des valeurs propres observées supérieure à (c'est-à-dire celles qu'ils ont retenues) était de 2,21. Il y a une mise en garde que j'ajouterais: la première forme du critère de rétention doit être révisée lors de l'utilisation de la matrice de covariance, . L'hypothèse lors de l'utilisation de est que la variance totale (PCA) est égale à la somme des variances observées des données, et le traduit par : ce nombre pourrait bien être 2,21. λ¯rΣΣ>1>trace(Σ)/p
Alexis
@jhg Kaiser a écrit: "[Guttman] la borne inférieure la plus forte universellement exige que nous trouvions le nombre de racines latentes positives de la matrice de corrélation observée avec des multiples au carré dans la diagonale." Mais Guttman écrivait également sur la matrice de corrélation lorsqu'il décrivait l'unité comme la limite critique des valeurs propres de R (pas les R-unicité) (du bas de la page 154 au haut de la page 155), bien qu'il ne tire pas explicitement la logique de R -Unicité, il lui fait signe plus tôt au milieu de la page 150.
Alexis
4

Oui, il est possible d'avoir une valeur de 2,21 si la taille de l'échantillon n'est pas infiniment grande (ou assez grande ...). C'est, en fait, la motivation derrière le développement de l'analyse parallèle comme une augmentation de la règle de valeur propre 1.

Je cite Valle 1999 sur cette réponse et j'ai mis en italique la partie qui répond directement à votre question.

Sélection du nombre de composants principaux: la variance du critère d'erreur de reconstruction par rapport à d'autres méthodes † Sergio Valle, Weihua Li et et S. Joe Qin * Industrial & Engineering Chemistry Research 1999 38 (11), 4389-4401

Analyse parallèle . La méthode PA construit essentiellement des modèles PCA pour deux matrices: l'une est la matrice de données d'origine et l'autre est une matrice de données non corrélée avec la même taille que la matrice d'origine. Cette méthode a été développée à l'origine par Horn pour améliorer les performances du test Scree. Lorsque les valeurs propres de chaque matrice sont tracées sur la même figure, toutes les valeurs au-dessus de l'intersection représentent les informations de processus et les valeurs sous l'intersection sont considérées comme du bruit. En raison de cette intersection, la méthode d'analyse parallèle n'est pas ambiguë dans la sélection du nombre de PC. Pour un grand nombre d'échantillons, les valeurs propres pour une matrice de corrélation de variables non corrélées sont 1. Dans ce cas, la méthode PA est identique à la méthode AE. Cependant, lorsque les échantillons sont générés avec un nombre fini d'échantillons, les valeurs propres initiales dépassent 1, tandis que les valeurs propres finales sont inférieures à 1. C'est pourquoi Horn a suggéré de comparer les valeurs propres de la matrice de corrélation pour les variables non corrélées avec celles d'une matrice de données réelle basée sur la même taille d'échantillon.

Deathkill14
la source
La question est de savoir si une valeur unique de 2,21 peut être raisonnable. Comme la partie en italique dans votre citation de Valle et al. montre avec un nombre fini d'observations, il y aura (à ma connaissance) toujours une série de valeurs propres décroissantes. Ainsi, pour chaque facteur des données d'origine, il existe une valeur propre différente de l'analyse parallèle à comparer. Lorsque la taille de l'échantillon devient grande (quelques milliers d'individus), les valeurs propres convergent vers 1. Dans ce cas, je ne pouvais comprendre qu'une seule comparaison, mais uniquement au niveau 1.
jhg
Le 2.21 ici ne signifie-t-il pas pour cet ensemble de données et la méthode utilisée (de sorte que la combinaison) 2.21 est le seuil en dessous duquel la valeur propre est trop petite? Je ne suis pas sûr de ce que vous entendez par «valeur unique». Vous voulez dire en règle générale, comme la règle de valeur propre 1? Le seuil est généralement différent pour chaque analyse parallèle.
Deathkill14
Je comprends que l'analyse parallèle dépend du nombre de variables (dans mon exemple ci-dessus "10 tâches") et du nombre d'observations (200 dans l'exemple). Ainsi, il est très spécifique pour un ensemble de données individuel et il ne peut pas y avoir de règle générale comme "ne pas utiliser la valeur propre 1, utiliser la valeur propre 2.21". Ce serait un non-sens à coup sûr. Mais pour un exemple précis avec 200 observations sur 10 variables et donc 1 à 10 facteurs. Se peut-il qu'une analyse parallèle suggère de retenir des facteurs de valeur propre supérieure à 2,21 indépendamment du fait que le facteur soit le premier, le deuxième, le troisième, ...?
jhg
L'idée de la valeur de coupure (disons 1 ou 2,21) est qu'en dessous de cette valeur, la variation d'un facteur est essentiellement du bruit (essentiellement du bruit car il s'agit de la valeur propre de base de la matrice aléatoire). En règle générale, les facteurs sont triés de la valeur propre la plus élevée à la valeur la plus basse, mais cela est peut-être important surtout pour l'interprétabilité. Donc, "premier deuxième tiers" ne sont pas nécessairement fixés dans la pierre. Dans tous les cas, les facteurs avec des valeurs propres supérieures à 2,21 dans votre cas sont supposés contenir plus d'informations que le bruit. Garde les.
Deathkill14
2

Votre exemple n'est certainement pas clair, mais ce n'est peut-être pas un non-sens non plus. En résumé, considérons la possibilité que l'exemple fonde sa règle de décision sur la valeur propre du premier facteur simulé qui est supérieure au facteur réel du même nombre de facteurs. Voici un autre exemple dans:

d8a=data.frame(y=rbinom(99,1,.5),x=c(rnorm(50),rep(0,49)),z=rep(c(1,0),c(50,49)))
require(psych);fa.parallel(d8a)

Les données sont aléatoires et il n'y a que trois variables, donc un deuxième facteur n'aurait certainement pas de sens, et c'est ce que l'analyse parallèle indique. * Les résultats corroborent également ce qu'a dit @Alexis à propos de " The Malunderstanding ".

Supposons que j'interprète cette analyse comme suit: «Une analyse parallèle suggère que seuls les facteurs [ noncomposants] dont la valeur propre est égale ou supérieure à 1,2E-6. » Cela a un certain sens car c'est la valeur de la première valeur propre simulée qui est supérieure à la valeur propre "réelle", et toutes les valeurs propres par la suite diminuent nécessairement. C'est une façon maladroite de rendre compte de ce résultat, mais cela est au moins cohérent avec le raisonnement selon lequel on devrait examiner très sceptiquement tous les facteurs (ou composants) avec des valeurs propres qui ne sont pas beaucoup plus grandes que les valeurs propres correspondantes des données simulées et non corrélées. Cela devrait être le cas de manière cohérente après la première instance sur le tracé d'éboulis où la valeur propre simulée dépasse la valeur propre réelle correspondante. Dans l'exemple ci-dessus, le troisième facteur simulé est très légèrement plus petit que le troisième facteur "réel",


* Dans ce cas, R dit: "L'analyse parallèle suggère que le nombre de facteurs = 1 et le nombre de composants = 2", mais j'espère que la plupart d'entre nous savent ne pas faire confiance à notre logiciel pour interpréter nos graphiques pour nous ... ne conserverait pas le deuxième composant simplement parce qu'il est infiniment plus grand que le deuxième composant simulé.

Nick Stauner
la source
1
Grande idée créative sur la façon d'interpréter la phrase. Je l'ai considéré plus que brièvement. Ce n'est pas le cas.
jhg
Oy. On dirait un ou des articles bizarres avec
lesquels