Comment démarrer avec l'application de la théorie de la réponse aux éléments et quel logiciel utiliser?

21

Le contexte

J'ai lu sur la théorie de la réponse aux éléments et je trouve cela fascinant. Je crois que je comprends les bases, mais je me demande comment appliquer les techniques statistiques liées au domaine. Vous trouverez ci-dessous deux articles similaires au domaine dans lequel j'aimerais appliquer le RTI:

La seconde étant celle que je voudrais en fait étendre à ce stade.

J'ai téléchargé un programme gratuit appelé jMetrik, et il semble fonctionner très bien. Je pense que cela peut être trop basique en ce qui concerne l'IRT, mais je ne suis pas sûr.

Je sais que la «meilleure» façon impliquerait probablement l'apprentissage de R; cependant, je ne sais pas si je peux épargner du temps pour aborder cette courbe d'apprentissage. Notez que nous avons des fonds pour acheter des logiciels, mais d'après ce que je vois, il ne semble pas y avoir d'excellents programmes IRT.

Des questions

  • Que pensez-vous de l'efficacité de jMetrik?
  • Comment suggéreriez-vous que j'aille de l'avant dans l'application du TRI?
  • Quels sont les meilleurs programmes pour appliquer l'IRT?
  • Est-ce que l'un d'entre vous utilise régulièrement l'IRT? Si c'est le cas, comment?
Behacad
la source
1
quel logiciel utilisez-vous actuellement?
StasK
J'utilise jMetrik. Il est assez récent, il ressemble et a fait beaucoup de choses qui m'intéressent!
Behacad
2
Cela fonctionne-t-il en mode script? Si vous ne disposez que d'une interface graphique, vos résultats seront très difficiles à reproduire. Un mode script est indispensable pour tout logiciel sérieux.
StasK

Réponses:

22

En tant que bon débutant à l'IRT, je recommande toujours de lire Un guide visuel de la théorie de la réponse aux éléments .

Un aperçu des logiciels disponibles est disponible sur www.rasch.org .

D'après mon expérience, j'ai trouvé les commandes Raschtest (et associées) Stata très pratiques dans la plupart des cas où l'on est intéressé par l'ajustement d'un modèle à un paramètre. Pour une conception plus complexe, on peut recourir à GLLAMM ; il y a un bel exemple de travail basé sur le livre de De Boeck et Wilson, Explanatory Item and Response Models (Springer, 2004).

En ce qui concerne R en particulier, de nombreux packages sont devenus disponibles au cours des cinq dernières années, voir par exemple la vue des tâches CRAN correspondante . La plupart d'entre eux sont discutés dans un numéro spécial du Journal of Statistical Software (vol. 20, 2007). Comme discuté dans une autre réponse, les ltm et eRm permettent de s'adapter à une large gamme de modèles IRT. Comme ils reposent sur des méthodes d'estimation différentes --- ont ltmutilisé l'approche marginale tout en eRmutilisant l'approche conditionnelle --- le choix de l'une ou de l'autre dépend principalement du modèle que vous souhaitez adapter (eRm ne correspond pas aux modèles à 2 ou 3 paramètres) et à l'objectif de mesure que vous suivez: l'estimation conditionnelle des paramètres de la personne a de belles propriétés psychométriques tandis qu'une approche marginale vous permet de passer facilement au modèle à effets mixtes, comme discuté dans les deux articles suivants :

Il existe également des possibilités pour adapter les modèles Rasch à l'aide de méthodes MCMC, voir par exemple le package MCMCpack (ou WinBUGS / JAGS , mais voir le code BUGS pour la théorie de la réponse aux éléments , JSS (2010) 36).

Je n'ai aucune expérience avec SAS pour la modélisation IRT, donc je vais laisser cela à quelqu'un qui est plus versé dans la programmation SAS.

D'autres logiciels dédiés (principalement utilisés dans l'évaluation pédagogique) comprennent: RUMM, Conquest, Winsteps, BILOG / MULTILOG, Mplus (sans citer la liste déjà disponible sur wikipedia ). Aucun n'est gratuit à utiliser, mais une version de démonstration limitée dans le temps est proposée pour certains d'entre eux. J'ai trouvé jMetrik très limité lorsque je l'ai essayé (il y a un an), et toutes les fonctionnalités sont déjà disponibles dans R. De même, ConstructMap peut être remplacé en toute sécurité par lme4 , comme illustré dans le document ci-dessus. Je devrais également mentionner mdltm(Multidimensional Discrete Latent Trait Models) pour les modèles de Rasch mixtes, par von Davier et coll., Qui est censé accompagner le livreModèles Rasch multivariés et de distribution de mélanges (Springer, 2007).

chl
la source
Fantastique! Merci pour la réponse très complète! Ces deux réponses m'aideront très bien, ainsi que tous ceux qui sont curieux de poursuivre dans ce domaine, j'en suis sûr. Je vous suggère de revoir jMetrik, et peut-être de me donner votre avis. Il a maintenant la modélisation Rasch, les courbes ICC, certaines courbes IRT, l'équation IRT (modèles 1PT, 2PT, 3PT), et plus encore.
Behacad le
Je vais regarder la version mise à jour. Mais, honnêtement, ce que @Stask a dit mérite d'être rappelé si vous envisagez de faire quelque chose de sérieux au-delà de l'estimation des paramètres et du rapport visuel. Pour avoir une idée de ce que je veux dire, regardez une introduction à la théorie psychométrique avec des applications en R . (Il couvre plus que ce que certains appellent la psychométrie "moderne".)
chl
@chi - J'ai obtenu des résultats très différents lorsque j'ai effectué des analyses IRT dans R à l'aide de ltm par rapport à lorsque j'ai exécuté la même analyse dans Mplus puis dans Multilog (alors que les analyses dans Mplus et Multilog étaient identiques). J'ai essayé de comprendre pourquoi avec l'auteur de ltm, mais je n'ai reçu aucune réponse. Avez-vous eu des expériences similaires avec des résultats divergents de différents logiciels?
Tormod
ex5.5θp-βjeje=1,,kp=1,,nβje-θpqui est modélisé, et la méthode d'estimation (vraisemblance marginale vs conditionnelle), et pour les modèles à 2+ paramètres si les seuils sont centrés ou non.
chl
@chi - désolé pour le retard dans la réponse, je n'ai pas remarqué votre commentaire. Je ne sais pas si cela est toujours pertinent, mais j'ai obtenu des différences variant de 0,184 à 1,429 pour les paramètres de discrimination (a). Par exemple, Mplus a donné un a = 5,084 tandis que ltm a donné le même élément un a = 3,665. Dans l'ensemble, ltm a donné des a plus petits que mplus. (L'exécution des mêmes analyses dans le journal multiple a donné des a correspondant aux a de Mplus). Les b étaient plus similaires.
Tormod
8

Pour la première question, je n'ai aucune information sur jMetrick.

Lors de l'application de l'IRT (comme pour toute autre procédure statistique), la première étape consiste à l'utiliser avec autant de types de données différents que possible. Il y a une courbe d'apprentissage, mais je pense que cela en vaut la peine.

Une caractéristique importante de l'IRT est la différenciation entre les modèles Rasch et les modèles IRT. Ils ont été développés par différentes personnes à des fins différentes. Cela étant dit, les modèles IRT sont un sur-ensemble de modèles Rasch.

Les modèles de Rasch sont des modèles à un paramètre - ils supposent que tous les éléments d'un questionnaire sont également prédictifs du caractère latent.

Cependant, les modèles IRT sont deux modèles de paramètres qui permettent aux questions de différer dans leur capacité à fournir des informations sur la capacité des participants.

De plus, il existe trois modèles de paramètres qui ressemblent aux modèles IRT, sauf qu'ils permettent à un paramètre de deviner de rendre compte de la capacité des participants à obtenir la bonne réponse par hasard (cela concerne davantage les capacités que les tests de personnalité).

De plus, il existe un IRT multidimensionnel qui estime plusieurs capacités latentes à la fois. Je ne sais pas grand-chose à ce sujet, mais c'est un domaine que j'ai l'intention d'en savoir plus.

Il existe également une distinction entre les méthodes IRT dichotomiques et polytomiques. Les modèles IRT dichotomiques sont ceux utilisés dans les tests de capacité, qui ont une bonne et une mauvaise réponse. Les modèles IRT polytomiques sont utilisés dans les tests de personnalité, où il y a plusieurs réponses, qui sont également correctes (dans le sens où il n'y a pas de bonne réponse).

J'utilise personnellement R pour la théorie de la réponse aux éléments. Il y a deux packages principaux que j'ai utilisés, eRmqui conviennent uniquement aux modèles Rasch et ltmqui correspondent aux modèles théoriques de réponse aux éléments (modèles à deux et trois paramètres). Les deux ont des fonctionnalités similaires et fournissent plus de routines pour les modèles IRT dichotomiques. Je ne sais pas si R est le "meilleur" pour IRT, il n'a pas toute la multitude de modèles IRT disponibles, mais il est certainement le plus extensible, en ce sens que l'on peut programmer ces modèles relativement facilement.

J'utilise l'IRT presque exclusivement pour les modèles polytomiques, dans R. Je commence généralement par des méthodes IRT non paramétriques (fournies dans le package mokken) pour tester les hypothèses, puis je continue avec un modèle rasch, ajoutant plus de complexité au besoin pour obtenir un bon ajustement.

Pour l'IRT multidimensionnel, il y a le package `mirt ', qui fournit cette fonctionnalité. Je ne l'ai pas utilisé donc je ne peux pas vraiment commenter.

Si vous installez ces packages dans R et appelez la fonction 'vignette ("packagename")', vous devriez obtenir des vignettes utiles (certainement pour eRmet mokken, éventuellement pour les autres) qui peuvent vous être utiles (selon votre niveau de sophistication mathématique).

Enfin, il existe un certain nombre de bons livres disponibles pour les modèles rasch et irt. La théorie de la réponse aux objets pour les psychologues est souvent utilisée (bien que je n'aime pas le style), et plus haut dans la chaîne de sophistication technique, il existe deux manuels extrêmement complets et utiles - le Handbook of Modern Item Response Theory et Rasch Models: Foundations, Recent Développements et applications .

J'espère que ça aide.

richiemorrisroe
la source
Merci! C'est très apprécié. J'aimerais également en savoir plus sur les options logicielles si quelqu'un a des connaissances dans le domaine.
Behacad
3

jMetrik est plus puissant que vous ne le pensez. Il est conçu pour les travaux opérationnels où les chercheurs ont besoin de plusieurs procédures dans un seul cadre unifié. Actuellement, vous pouvez estimer les paramètres IRT pour les modèles Rasch, crédit partiel et échelle de notation. Il permet également la liaison à l'échelle IRT via Stocking-Lord, Haebara et d'autres méthodes. Puisqu'il inclut une base de données intégrée, la sortie de l'estimation IRT peut être utilisée dans la liaison d'échelle sans avoir besoin de remodeler les fichiers de données. De plus, toutes les sorties peuvent être stockées dans la base de données pour être utilisées avec d'autres méthodes dans jMetrik ou des programmes externes comme R.

Vous pouvez également l'exécuter avec des scripts au lieu de l'interface graphique. Par exemple, le code suivant (a) importera des données dans la base de données, (b) notera les éléments avec un corrigé, (c) estimera les paramètres du modèle Rasch et (d) exportera les données sous forme de fichier CSV. Vous pouvez utiliser le fichier de sortie final comme entrée dans R pour une analyse plus approfondie, ou vous pouvez utiliser R pour vous connecter directement à la base de données jMetrik et travailler avec les résultats.

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

Le logiciel en est encore à ses premiers stades de développement. J'ajoute actuellement une analyse factorielle exploratoire et des modèles de réponse d'items plus avancés. Contrairement à de nombreux autres programmes IRT, jMetrik est open source. toutes les procédures de mesure utilisent la bibliothèque psychométrique qui est actuellement disponible sur GitHub, https://github.com/meyerjp3/psychometrics . Toute personne intéressée à contribuer est la bienvenue.

meyerjp3
la source
0

Vous avez ici une liste assez large de questions, mais tout à fait pertinente pour de nombreux chercheurs!

Je vous recommande fortement d'aller de l'avant dans l'IRT, mais uniquement si votre situation répond aux exigences. Par exemple, il correspond bien aux types de tests que vous utilisez et, surtout, le plus important est que vous disposez des tailles d'échantillons nécessaires. Pour les données dichotomiques à choix multiple, je recommande le modèle 3PL (l'argument Rasch de la «mesure objective» est étonnamment peu convaincant), et 500-1000 est généralement la taille minimale de l'échantillon. Les données dichotomiques sans deviner, comme les enquêtes psychologiques qui ont des réponses O / N aux déclarations, fonctionnent bien avec le 2PL. Si vous disposez d'une échelle de notation ou de données de crédit partielles, il existe des modèles polytomiques conçus spécifiquement pour ces situations.

À mon humble avis, le meilleur programme pour appliquer l'IRT est Xcalibre. Il est relativement convivial (interface graphique simple ainsi que certains types de lots en ligne de commande si vous le souhaitez pour une raison quelconque) et produit une sortie très lisible (rapports MS Word avec de nombreux tableaux et figures). Je déconseille d'utiliser R pour les raisons opposées. L'inconvénient, bien sûr, c'est que ce n'est pas gratuit, mais vous avez tendance à en avoir pour votre argent comme on dit. Une description complète, un exemple de sortie et un essai gratuit sont disponibles sur www.assess.com .

Énée
la source
Souhaitez-vous expliquer pourquoi l'argument sur la "mesure objective" sensu Rasch (ou plus exactement la possibilité de comparaisons objectives spécifiques) est "d'une incroyable netteté"?
Momo