Contrairement à l'analyse des composants principaux, les solutions aux modèles d'analyse factorielle ne sont pas nécessairement imbriquées. Autrement dit, les charges (par exemple) pour le premier facteur ne seront pas nécessairement identiques lorsque seul le premier facteur est extrait par rapport aux deux premiers facteurs.
Dans cet esprit, considérons un cas où vous avez un ensemble de variables manifestes qui sont fortement corrélées et (par la connaissance théorique de leur contenu) devraient être motivées par un seul facteur. Imaginez que les analyses factorielles exploratoires (selon la mesure que vous préférez: analyse parallèle, éboulis, valeurs propres> 1, etc.) suggèrent fortement qu'il existe facteurs: un grand facteur primaire et un petit facteur secondaire. Vous souhaitez utiliser les variables manifestes et la solution factorielle pour estimer (c.-à-d. Obtenir des scores factoriels) les valeurs des participants pour le premier facteur. Dans ce scénario, serait-il préférable de:
- Mettre en place un modèle de facteur pour extraire seulement facteur et obtenir des scores de facteur (etc.), ou
- adapter un modèle factoriel pour extraire les deux facteurs, obtenir des scores factoriels pour les facteurs, mais jeter / ignorer les scores pour le deuxième facteur?
Quelle que soit la meilleure pratique, pourquoi? Y a-t-il des recherches sur cette question?
la source
Is is always better to extract more factors when they exist?
n'est pas très clair. Il vaut toujours mieux en extraire autant qu'il en existe. Le sous-ajustement ou le sur-ajustement déforment tous les deux la "vraie" structure latente en raison de la nature multivariée et non imbriquée de l'analyse que vous avez mentionnée. Le problème est que nous ne savons pas exactement combien de facteurs il y a dans nos données. Et si ces données en ont autant que la population.Réponses:
La question à laquelle vous faites allusion est le sujet de `` l'unidimensionnalité approximative '' lors de la construction d'instruments de test psychologique, qui a été assez discuté dans la liturature dans les années 80. L'inspiration a existé dans le passé parce que les praticiens voulaient utiliser des modèles de théorie de réponse aux éléments (IRT) traditionnels pour leurs articles, et à l'époque ces modèles IRT étaient exclusivement limités à la mesure de traits unidimensionnels. Ainsi, la multidimensionnalité des tests était censée être une nuisance qui (espérons-le) pourrait être évitée ou ignorée. C'est également ce qui a conduit à la création des techniques d'analyse parallèle en analyse factorielle (Drasgow et Parsons, 1983) et des méthodes DETECT.
Les conséquences de l'ignorance de traits / facteurs supplémentaires, autres que l'adaptation évidente du mauvais modèle aux données (c.-à-d., L'ignorance des informations sur l'adéquation potentielle du modèle; bien que cela puisse bien sûr être trivial), est que les estimations des traits sur le facteur dominant deviendront biaisées et donc moins efficace. Ces conclusions dépendent bien sûr de la façon dont les propriétés des traits supplémentaires (par exemple, sont-elles corrélées avec la dimension primaire, ont-elles de fortes charges, combien de charges croisées y a-t-il, etc.), mais le thème général est que les estimations secondaires pour obtenir des scores de traits primaires sera moins efficace. Voir le rapport technique ici pour une comparaison entre un modèle unidimensionnel mal ajusté et un modèle à deux facteurs; le rapport technique semble être exactement ce que vous recherchez.
D'un point de vue pratique, l'utilisation de critères d'information peut être utile lors de la sélection du modèle le plus optimal, ainsi que des statistiques d'ajustement du modèle en général (RMSEA, CFI, etc.) car les conséquences de l'ignorance des informations multidimensionnelles affecteront négativement l'adéquation globale aux données . Mais bien sûr, l'ajustement global du modèle n'est qu'une indication de l'utilisation d'un modèle inapproprié pour les données disponibles; il est tout à fait possible que des formes fonctionnelles inappropriées soient utilisées, telles que la non-linéarité ou le manque de monotonie, de sorte que les éléments / variables respectifs doivent toujours être inspectés également.
Voir aussi :
Drasgow, F. et Parsons, CK (1983). Application des modèles de théorie de réponse aux éléments unidimensionnels aux données multidimensionnelles. Mesure psychologique appliquée, 7 (2), 189-199.
Drasgow, F. et Lissak, RI (1983). Analyse parallèle modifiée: une procédure pour examiner la dimensionnalité latente des réponses aux éléments notés de manière dichotomique. Journal of Applied Psychology, 68, 363-373.
Levent Kirisci, Tse-chi Hsu et Lifa Yu (2001). Robustesse des programmes d'estimation des paramètres d'item aux hypothèses d'unidimensionnalité et de normalité. Mesure psychologique appliquée, 25 (2), 146-162.
la source
Si vous ne voulez vraiment pas utiliser le deuxième facteur, vous devez simplement utiliser un modèle à un facteur. Mais je suis perplexe par votre remarque selon laquelle les charges pour le premier facteur changeront si vous utilisez un deuxième facteur.
Voyons d'abord cette déclaration. Si vous utilisez des composants principaux pour extraire les facteurs et n'utilisez pas la rotation des facteurs, les chargements ne changeront pas - sous réserve peut-être d'une mise à l'échelle (ou d'un retournement complet: si est un facteur, alors est un moyen légitime de l'exprimer sous la forme bien). Si vous utilisez l'extraction de vraisemblance maximale et / ou les rotations de facteurs, les charges peuvent dépendre du nombre de facteurs que vous avez extraits.- xx −x
Ensuite, pour l'explication des effets des rotations. Je ne suis pas bon en dessin, donc je vais essayer de vous convaincre en utilisant des mots. Je suppose que vos données sont (approximativement) normales, de sorte que les scores factoriels sont également approximativement normaux. Si vous extrayez un facteur, vous obtenez une distribution normale unidimensionnelle, si vous extrayez deux facteurs, vous obtenez une distribution normale bivariée.
La densité d'une distribution bivariée ressemble grosso modo à un chapeau, mais la forme exacte dépend de la mise à l'échelle ainsi que du coefficient de corrélation. Supposons donc que les deux composantes ont chacune une variance unitaire. Dans le cas non corrélé, vous obtenez un joli sombrero, avec des courbes de niveau qui ressemblent à des cercles. Une photo est ici . La corrélation "écrase" le chapeau, de sorte qu'il ressemble plus à un chapeau Napoléon .
Supposons que votre ensemble de données d'origine ait trois dimensions et que vous souhaitiez en extraire deux facteurs. Restons également avec la normalité. Dans ce cas, la densité est un objet à quatre dimensions, mais les courbes de niveau sont à trois dimensions et peuvent au moins être visualisées. Dans le cas non corrélé, les courbes de niveau sont sphériques (comme un ballon de football). En présence de corrélation, les courbes de niveau seront à nouveau déformées, en un ballon de football, probablement sous-gonflé, de sorte que l'épaisseur au niveau des coutures soit inférieure à l'épaisseur dans les autres directions.
Si vous extrayez deux facteurs à l'aide de PCA, vous aplatissez complètement le ballon de football dans une ellipse (et vous projetez chaque point de données sur le plan de l'ellipse). Le premier facteur non orienté correspond à l'axe long de l'ellipse, le deuxième facteur lui est perpendiculaire (c'est-à-dire l'axe court). La rotation choisit ensuite un système de coordonnées au sein de cette ellipse afin de satisfaire d'autres critères pratiques.
Si vous extrayez un seul facteur, la rotation est impossible, mais vous avez la garantie que le facteur PCA extrait correspond au grand axe de l'ellipse.
la source
fa()
exemple, les R ne les utilisent pas depuis des années. D'autres méthodes produiront des solutions non imbriquées, ce qui est facile à vérifier avec un logiciel et un ensemble de données FA. Pour des raisons de comparabilité, vous pouvez considérer les deux solutions comme non orientées. FWIW, je connais l'idée des distributions MVN sphériques et elliptiques.Pourquoi n'utiliseriez-vous pas quelque chose comme lavaan ou MPlus pour exécuter deux modèles (modèle unidimensionnel et un modèle à deux dimensions alignés sur vos résultats EPT) et comparer les indices d'ajustement relatifs et absolus des différents modèles (c'est-à-dire les critères d'information - AIC et BIC, RMSEA, SRMR, CFI / TLI)? Notez que si vous suivez cette voie, vous ne voudriez pas utiliser PCA pour l'EPT, mais plutôt les principaux facteurs. Quelqu'un vraiment préoccupé par la mesure intégrerait le CFA dans un modèle d'équation structurelle complet.
Edit: L'approche que je vous demande de considérer consiste davantage à déterminer combien de variables latentes expliquent réellement l'ensemble des éléments. Si vous voulez obtenir la meilleure estimation du plus grand facteur, je voterais pour l'utilisation des scores des facteurs du modèle CFA avec le meilleur ajustement, quel qu'il soit.
la source