Je suis en train de développer empiriquement un questionnaire et j'utiliserai des nombres arbitraires dans cet exemple pour illustrer. Pour le contexte, je développe un questionnaire psychologique visant à évaluer les schémas de pensée couramment identifiés chez les personnes souffrant de troubles anxieux. Un article pourrait ressembler à "J'ai besoin de vérifier le four à plusieurs reprises car je ne peux pas être sûr qu'il est éteint ".
J'ai 20 questions (Likert en 5 points) qui peuvent être composées d'un ou deux facteurs (notez qu'en réalité, j'ai plus de 200 questions, comprenant 10 échelles, et chaque échelle peut être composée de deux facteurs). Je suis prêt à effacer environ la moitié des éléments, laissant 10 questions sur l'un des deux facteurs.
Je connais l'analyse factorielle exploratoire (ALE), la cohérence interne (alpha de Cronbach) et les courbes caractéristiques des éléments dans la théorie de la réponse aux éléments (IRT). Je peux voir comment j'utiliserais n'importe laquelle de ces méthodes pour déterminer quels éléments sont les «pires» dans une seule échelle. J'apprécie que chaque méthode réponde également à des questions différentes, bien qu'elles puissent conduire à des résultats similaires et je ne sais pas quelle "question" est la plus importante.
Avant de commencer, assurez-vous de savoir ce que je fais avec chacune de ces méthodes individuellement.
À l'aide de l'EFA, j'identifierais le nombre de facteurs et supprimerais les éléments qui se chargent le moins (disons <0,30) sur leur facteur respectif ou qui se chargent de manière substantielle entre les facteurs.
En utilisant la cohérence interne, je supprimerais les éléments qui ont le pire "alpha si l'élément supprimé". Je pourrais le faire en supposant un facteur dans mon échelle, ou le faire après un EPT initial pour identifier le nombre de facteurs et ensuite exécuter mon alpha pour chaque facteur.
En utilisant l'IRT, je supprimerais les éléments qui n'évaluent pas le facteur d'intérêt le long de leurs options de réponse (5 Likert). Je serais en train de regarder les courbes caractéristiques des objets. Je chercherais essentiellement une ligne sur un angle de 45 degrés allant de l'option 1 sur l'échelle de Likert jusqu'à 5 le long du score latent. Je pourrais le faire en supposant un facteur, ou le faire après un premier
EPT pour identifier le nombre de facteurs, puis exécuter les courbes pour chaque facteur.
Je ne sais pas laquelle de ces méthodes utiliser afin d’identifier au mieux les articles qui sont les «pires». J'utilise le pire au sens large, de sorte que l'élément porterait préjudice à la mesure, que ce soit en termes de fiabilité ou de validité, qui sont tous deux également importants pour moi. Je peux probablement les utiliser conjointement, mais je ne sais pas comment.
Si je devais continuer avec ce que je sais maintenant et faire de mon mieux, je ferais ce qui suit:
- Faites un ALE pour identifier le nombre de facteurs. Supprimez également les éléments avec de mauvais chargements sur leurs facteurs respectifs, car je ne veux pas que les éléments se chargent mal, quelle que soit la façon dont ils le feraient dans d'autres analyses.
- Effectuez l'IRT et supprimez également les éléments défectueux jugés par cette analyse, s'il en reste dans l'EFA.
- Signalez simplement l'Alpha de Cronbach et n'utilisez pas cette mesure comme moyen de supprimer des éléments.
Toutes les directives générales seraient grandement appréciées!
Voici également une liste de questions spécifiques auxquelles vous pouvez peut-être répondre:
Quelle est la différence pratique entre la suppression d'éléments basés sur les chargements factoriels et la suppression d'éléments basés sur l'alpha de Chronbach (en supposant que vous utilisez la même disposition factorielle pour les deux analyses)?
Que dois-je faire en premier? En supposant que je réalise l'EPT et l'IRT avec un seul facteur, et que les deux identifient les différents éléments à supprimer, quelle analyse devrait avoir la priorité?
Je ne suis pas déterminé à faire toutes ces analyses, bien que je rapporterai malgré tout l'alpha de Chronbach. J'ai l'impression que faire juste IRT laisserait quelque chose de manquant, et de même pour EFA.
Réponses:
Je n'ai pas de citations, mais voici ce que je suggère:
Zeroth: Si possible, divisez les données en un ensemble de formation et de test.
Faites d'abord l'EPT. Examinez différentes solutions pour voir lesquelles ont du sens, en fonction de votre connaissance des questions. Vous devriez le faire avant l'alpha de Cronbach, ou vous ne saurez pas quels éléments entrent dans quel facteur. (Exécuter alpha sur TOUS les éléments n'est probablement pas une bonne idée).
Ensuite, exécutez alpha et supprimez les éléments qui ont des corrélations beaucoup plus faibles que les autres dans chaque facteur. Je ne fixerais pas de seuil arbitraire, je rechercherais ceux qui sont beaucoup plus bas que les autres. Voyez s'il est logique de les supprimer.
Enfin, choisissez des éléments avec une variété de niveaux de "difficulté" de l'IRT.
Ensuite, si possible, refaites ceci sur l'ensemble de test, mais sans faire aucune exploration. Autrement dit, voyez à quel point le résultat trouvé sur l'ensemble d'apprentissage fonctionne sur l'ensemble de test.
la source
Les trois de vos critères suggérés pourraient en fait être réalisés en IRT, plus spécifiquement en IRT multidimensionnel. Si la taille de votre échantillon est assez grande, ce serait probablement une façon cohérente de procéder pour chaque sous-échelle. De cette façon, vous pourriez bénéficier des avantages de l'IRT pour modéliser un élément de manière indépendante (en utilisant des modèles nominaux pour certains éléments, un crédit partiel généralisé ou gradué pour d'autres, ou si possible même établir des échelles de notation pour aider à interpréter les éléments polytomiques de manière plus parcimonieuse).
Le MIRT est conceptuellement équivalent à l'analyse factorielle au niveau des articles et a donc une relation d'équivalence EPT linéaire pour les articles dichotomiques et polytomiques. Je ne sais pas si j'accepterais les critères <.3 pour supprimer des articles, car cela dépend vraiment du contexte et de la structure des facteurs. Les petites charges / pentes ne fournissent pas autant d'informations sur les emplacements d'interception, mais peuvent toujours être utiles car elles peuvent offrir une fonction d'information plus large et moins pointue à tous les niveaux de . Certaines applications de CAT utilisent également ces types d'éléments dès le début, car elles fournissent une bande d'informations plus large au début du test.θ
La suppression d'éléments basés sur les critères de Cronbach est à peu près la même chose que la suppression d'éléments qui donnent une meilleure fiabilité marginale / empirique dans IRT, donc si le logiciel que vous utilisez prend en charge ces statistiques, vous pouvez suivre la même stratégie sans quitter le paradigme IRT. Je serais cependant plus enclin à vérifier les fonctions d'information pour voir si la suppression d'un élément affecte gravement la mesure à différents niveaux (liés à l'endroit où se trouvent les interceptions). Les tracés d'informations relatives sont également utiles ici.θ
Vous pouvez essayer de supprimer des éléments qui ne sont pas conformes aux exigences unidimensionnelles de la plupart des logiciels IRT, mais je ne recommanderais pas nécessairement cela si cela affecte la représentation théorique des constructions à portée de main. Dans les applications empiriques, il est généralement préférable d'essayer d'adapter nos modèles à notre théorie, et non l'inverse. C'est également là que les modèles bifacteurs / à deux niveaux sont généralement appropriés, car vous souhaitez inclure tous les éléments possibles tout en tenant compte de la multidimensionnalité de manière systématique et théoriquement souhaitable.
la source
mirt
fscores()
sirt
TAM