Est-il toujours préférable d'extraire plus de facteurs lorsqu'ils existent?

11

Contrairement à l'analyse des composants principaux, les solutions aux modèles d'analyse factorielle ne sont pas nécessairement imbriquées. Autrement dit, les charges (par exemple) pour le premier facteur ne seront pas nécessairement identiques lorsque seul le premier facteur est extrait par rapport aux deux premiers facteurs.

Dans cet esprit, considérons un cas où vous avez un ensemble de variables manifestes qui sont fortement corrélées et (par la connaissance théorique de leur contenu) devraient être motivées par un seul facteur. Imaginez que les analyses factorielles exploratoires (selon la mesure que vous préférez: analyse parallèle, éboulis, valeurs propres> 1, etc.) suggèrent fortement qu'il existe facteurs: un grand facteur primaire et un petit facteur secondaire. Vous souhaitez utiliser les variables manifestes et la solution factorielle pour estimer (c.-à-d. Obtenir des scores factoriels) les valeurs des participants pour le premier facteur. Dans ce scénario, serait-il préférable de:2

  1. Mettre en place un modèle de facteur pour extraire seulement facteur et obtenir des scores de facteur (etc.), ou1
  2. adapter un modèle factoriel pour extraire les deux facteurs, obtenir des scores factoriels pour les facteurs, mais jeter / ignorer les scores pour le deuxième facteur?

Quelle que soit la meilleure pratique, pourquoi? Y a-t-il des recherches sur cette question?

gung - Réintégrer Monica
la source
Il ne faut pas se fier uniquement aux dispositifs heuristiques pré-analytiques lors du choix du nombre de facteurs à extraire. Reproduction des corrélations (dans quelle mesure est-il préférable d'extraire 2 facteurs au lieu de 1?) Comment les résidus de corrélation sont-ils répartis dans telle ou telle solution? (ils devraient normalement être à peu près uniformes ou normaux, pas de queue droite longue / grasse). Si les données sont normales, les tests d'ajustement et les erreurs de charge sont calculables (avec extraction ML). Sur la base de tout cela, plus l'interprétabilité, on pourrait décider si la voie (1) ou (2) est meilleure dans le cas actuel.
ttnphns
(suite) En fin de compte, seuls de nouveaux échantillons / AF de confirmation peuvent juger le dilemme jusqu'au bout. Une notion cependant. Si le 2e facteur est vraiment faible (petites charges SS après extraction), je ne m'attends pas à ce que les deux solutions (et donc les scores des facteurs du facteur 1) diffèrent considérablement. (Je le dis sans trop de confiance parce que je commente sans révision. Mais, logiquement, si l'avion factoriel est prêt à dégénérer en ligne, les résultats devraient être presque comme avec juste la ligne ...)
ttnphns
Le titre Q Is is always better to extract more factors when they exist?n'est pas très clair. Il vaut toujours mieux en extraire autant qu'il en existe. Le sous-ajustement ou le sur-ajustement déforment tous les deux la "vraie" structure latente en raison de la nature multivariée et non imbriquée de l'analyse que vous avez mentionnée. Le problème est que nous ne savons pas exactement combien de facteurs il y a dans nos données. Et si ces données en ont autant que la population.
ttnphns
1
@ttnphns, votre dernier commentaire va au cœur de la question, je pense. Supposons les méthodes que vous aimez pour vous convaincre qu'il y a vraiment 2 facteurs, dont 1 représente presque toute la variance partagée, jusqu'à et y compris CFA sur un nouvel échantillon. L'ajustement avec 2 est négligeable, mais meilleur. Ceci est un exemple faux et artificiel pour mettre en évidence le problème. Le problème sous-jacent pourrait tout aussi bien être d'utiliser 2 sur 5.
gung - Reinstate Monica
1
La question est, puisque les solutions ne sont pas imbriquées, quelle approche vous donne une meilleure estimation du score de chaque participant sur la variable latente, et pourquoi? Est-ce que l'utilisation d'un seul biais est-elle différente de la valeur réelle, ou les deux? Est-ce que cela se produit parce que n'utiliser que 1 est «insuffisant»? Qu'est-ce que ça veut dire exactement? Est-il possible de caractériser la nature de la distorsion? Alternativement, j'aurais pu m'attendre à ce que l'extraction d'un seul permette à l'analyse de concentrer tous ses degrés de liberté sur l'obtention du 1er aussi précis que possible.
gung - Rétablir Monica

Réponses:

5

La question à laquelle vous faites allusion est le sujet de `` l'unidimensionnalité approximative '' lors de la construction d'instruments de test psychologique, qui a été assez discuté dans la liturature dans les années 80. L'inspiration a existé dans le passé parce que les praticiens voulaient utiliser des modèles de théorie de réponse aux éléments (IRT) traditionnels pour leurs articles, et à l'époque ces modèles IRT étaient exclusivement limités à la mesure de traits unidimensionnels. Ainsi, la multidimensionnalité des tests était censée être une nuisance qui (espérons-le) pourrait être évitée ou ignorée. C'est également ce qui a conduit à la création des techniques d'analyse parallèle en analyse factorielle (Drasgow et Parsons, 1983) et des méthodes DETECT.

Les conséquences de l'ignorance de traits / facteurs supplémentaires, autres que l'adaptation évidente du mauvais modèle aux données (c.-à-d., L'ignorance des informations sur l'adéquation potentielle du modèle; bien que cela puisse bien sûr être trivial), est que les estimations des traits sur le facteur dominant deviendront biaisées et donc moins efficace. Ces conclusions dépendent bien sûr de la façon dont les propriétés des traits supplémentaires (par exemple, sont-elles corrélées avec la dimension primaire, ont-elles de fortes charges, combien de charges croisées y a-t-il, etc.), mais le thème général est que les estimations secondaires pour obtenir des scores de traits primaires sera moins efficace. Voir le rapport technique ici pour une comparaison entre un modèle unidimensionnel mal ajusté et un modèle à deux facteurs; le rapport technique semble être exactement ce que vous recherchez.

D'un point de vue pratique, l'utilisation de critères d'information peut être utile lors de la sélection du modèle le plus optimal, ainsi que des statistiques d'ajustement du modèle en général (RMSEA, CFI, etc.) car les conséquences de l'ignorance des informations multidimensionnelles affecteront négativement l'adéquation globale aux données . Mais bien sûr, l'ajustement global du modèle n'est qu'une indication de l'utilisation d'un modèle inapproprié pour les données disponibles; il est tout à fait possible que des formes fonctionnelles inappropriées soient utilisées, telles que la non-linéarité ou le manque de monotonie, de sorte que les éléments / variables respectifs doivent toujours être inspectés également.

Voir aussi :

Drasgow, F. et Parsons, CK (1983). Application des modèles de théorie de réponse aux éléments unidimensionnels aux données multidimensionnelles. Mesure psychologique appliquée, 7 (2), 189-199.

Drasgow, F. et Lissak, RI (1983). Analyse parallèle modifiée: une procédure pour examiner la dimensionnalité latente des réponses aux éléments notés de manière dichotomique. Journal of Applied Psychology, 68, 363-373.

Levent Kirisci, Tse-chi Hsu et Lifa Yu (2001). Robustesse des programmes d'estimation des paramètres d'item aux hypothèses d'unidimensionnalité et de normalité. Mesure psychologique appliquée, 25 (2), 146-162.

philchalmers
la source
Merci d'avoir ajouté ceci. Cela semble être exactement ce que je recherche.
gung - Réintégrer Monica
Dois-je bien comprendre que votre réponse à la question du titre est "Oui"?
amibe dit Réintégrer Monica
2
@amoeba en général, je dirais oui, ou plus que l'inclusion d'informations supplémentaires devrait faire aussi bien ou mieux que d'imposer une unidimensionnalité stricte. Ignorer la multidimensionnalité connue peut être très problématique, mais bien sûr, un certain nombre de facteurs y contribueront. Le seul moment où les informations supplémentaires sur la structure peuvent être mauvaises est lorsque la taille de l'échantillon est trop petite pour estimer de manière stable les paramètres supplémentaires; donc, compromis efficacité-biais. Mais, si la taille de l'échantillon n'est pas vraiment un problème, je dirais qu'il y a peu à perdre à inclure des informations supplémentaires (mais beaucoup à perdre sinon).
philchalmers
1

Si vous ne voulez vraiment pas utiliser le deuxième facteur, vous devez simplement utiliser un modèle à un facteur. Mais je suis perplexe par votre remarque selon laquelle les charges pour le premier facteur changeront si vous utilisez un deuxième facteur.

Voyons d'abord cette déclaration. Si vous utilisez des composants principaux pour extraire les facteurs et n'utilisez pas la rotation des facteurs, les chargements ne changeront pas - sous réserve peut-être d'une mise à l'échelle (ou d'un retournement complet: si est un facteur, alors est un moyen légitime de l'exprimer sous la forme bien). Si vous utilisez l'extraction de vraisemblance maximale et / ou les rotations de facteurs, les charges peuvent dépendre du nombre de facteurs que vous avez extraits.- xxx

Ensuite, pour l'explication des effets des rotations. Je ne suis pas bon en dessin, donc je vais essayer de vous convaincre en utilisant des mots. Je suppose que vos données sont (approximativement) normales, de sorte que les scores factoriels sont également approximativement normaux. Si vous extrayez un facteur, vous obtenez une distribution normale unidimensionnelle, si vous extrayez deux facteurs, vous obtenez une distribution normale bivariée.

La densité d'une distribution bivariée ressemble grosso modo à un chapeau, mais la forme exacte dépend de la mise à l'échelle ainsi que du coefficient de corrélation. Supposons donc que les deux composantes ont chacune une variance unitaire. Dans le cas non corrélé, vous obtenez un joli sombrero, avec des courbes de niveau qui ressemblent à des cercles. Une photo est ici . La corrélation "écrase" le chapeau, de sorte qu'il ressemble plus à un chapeau Napoléon .

Supposons que votre ensemble de données d'origine ait trois dimensions et que vous souhaitiez en extraire deux facteurs. Restons également avec la normalité. Dans ce cas, la densité est un objet à quatre dimensions, mais les courbes de niveau sont à trois dimensions et peuvent au moins être visualisées. Dans le cas non corrélé, les courbes de niveau sont sphériques (comme un ballon de football). En présence de corrélation, les courbes de niveau seront à nouveau déformées, en un ballon de football, probablement sous-gonflé, de sorte que l'épaisseur au niveau des coutures soit inférieure à l'épaisseur dans les autres directions.

Si vous extrayez deux facteurs à l'aide de PCA, vous aplatissez complètement le ballon de football dans une ellipse (et vous projetez chaque point de données sur le plan de l'ellipse). Le premier facteur non orienté correspond à l'axe long de l'ellipse, le deuxième facteur lui est perpendiculaire (c'est-à-dire l'axe court). La rotation choisit ensuite un système de coordonnées au sein de cette ellipse afin de satisfaire d'autres critères pratiques.

Si vous extrayez un seul facteur, la rotation est impossible, mais vous avez la garantie que le facteur PCA extrait correspond au grand axe de l'ellipse.

user3697176
la source
2
Je suis perplexe devant cette réponse. La question pose explicitement sur l'analyse factorielle, par opposition à l' analyse en composantes principales.
amibe dit Réintégrer Monica
Il existe deux façons d'extraire des facteurs: les composants principaux ou la probabilité maximale. Je n'ai pas fait de statistiques à ce sujet, mais je pense que la méthode du composant principal est utilisée plus souvent.
user3697176
3
Il existe de nombreuses méthodes différentes, plus de deux. Axe principal, ML, minres, moindres carrés pondérés, etc. - je ne suis pas un expert ici. L'ACP est peut-être parfois (rarement!) Également considérée comme une méthode d'extraction de facteurs, mais c'est assez bâclé - cela ne devrait vraiment pas l'être. Il s'adapte à un modèle différent.
amibe dit Réintégrer Monica
Votre 1ère phrase répond à mon Q. Ce serait bien d'en savoir plus à ce sujet et pourquoi cela pourrait être juste. En ce qui concerne les méthodes d'extraction des facteurs, @amoeba a raison: PCA et PAF étaient courants lorsque d'autres algorithmes n'étaient pas aussi bien développés ou difficiles à mettre en œuvre. Ils sont désormais largement considérés comme inférieurs. Par fa()exemple, les R ne les utilisent pas depuis des années. D'autres méthodes produiront des solutions non imbriquées, ce qui est facile à vérifier avec un logiciel et un ensemble de données FA. Pour des raisons de comparabilité, vous pouvez considérer les deux solutions comme non orientées. FWIW, je connais l'idée des distributions MVN sphériques et elliptiques.
gung - Rétablir Monica
1
@gung, une remarque. La méthode PAF donne également des solutions non imbriquées. Il s'agit d'une méthode FA de bonne foi (bien que basée sur l'APC comme méthode) et, je suppose, elle est encore largement utilisée.
ttnphns
1

Pourquoi n'utiliseriez-vous pas quelque chose comme lavaan ou MPlus pour exécuter deux modèles (modèle unidimensionnel et un modèle à deux dimensions alignés sur vos résultats EPT) et comparer les indices d'ajustement relatifs et absolus des différents modèles (c'est-à-dire les critères d'information - AIC et BIC, RMSEA, SRMR, CFI / TLI)? Notez que si vous suivez cette voie, vous ne voudriez pas utiliser PCA pour l'EPT, mais plutôt les principaux facteurs. Quelqu'un vraiment préoccupé par la mesure intégrerait le CFA dans un modèle d'équation structurelle complet.

Edit: L'approche que je vous demande de considérer consiste davantage à déterminer combien de variables latentes expliquent réellement l'ensemble des éléments. Si vous voulez obtenir la meilleure estimation du plus grand facteur, je voterais pour l'utilisation des scores des facteurs du modèle CFA avec le meilleur ajustement, quel qu'il soit.

Erik Ruzek
la source