Similitudes et différences entre le modèle IRT et le modèle de régression logistique

9

Malgré les similitudes de base comme ces deux modèles, la probabilité de succès plutôt que de modéliser directement la variable de réponse; Je pense qu'il existe des réponses plus fiables qui soulignent les différences et les similitudes entre ces modèles.

Une différence étant, en logistique, on peut utiliser différents types et différents nombres de variables indépendantes; alors que dans le modèle IRT, nous n'avons qu'une seule variable indépendante qui est la capacité.

Une autre similitude: pour estimer les paramètres en logistique, nous utilisons l'approche du maximum de vraisemblance. Dans l'IRT, nous utilisons également le maximum de vraisemblance marginal comme l'une des approches d'estimation des paramètres.

Alors, quelqu'un peut-il indiquer les différences statistiques / mathématiques de ces deux modèles?

Artiga
la source
1
L'IRT (aka latent trait analysis) est parfois appelée analyse factorielle logistique ( voir ). La différence entre LR et IRT est en grande partie parallèle à la différence entre la régression linéaire et l'analyse factorielle. En régression, une variable dépendante est donnée, ainsi que les variables manifestes indépendantes. Dans l'analyse factorielle et d'autres modèles de variables latentes, la latence est extraite des variables manifestes données; de plus, c'est la latente qui est alors considérée comme la variable indépendante qui «prédit» les manifestes.
ttnphns
@ttnphns, Merci beaucoup pour la réponse. Suis-je donc en train de commettre une erreur si je fais référence à une variable Y comme réponse à un élément et que je modélise ensuite la probabilité qu'elle soit correcte. Dans ce scénario, n'ai-je pas déjà connu ma variable dépendante? Et une autre question, variable manifeste, vous voulez dire une variable dépendante dans l'IRT, n'est-ce pas?
Artiga
Répéter. Dans une régression, vous avez des DV manifestes Y et des IV manifestes X. Dans les modèles à variables latentes (analyse factorielle, IRT, ...) Vous n'avez que X. Les facteurs latents F sont extraits de X, mais extraits de manière à les considérer en tant que prédicteurs de X, c'est-à-dire qu'ils servent les IV pour X qui sont les DV. Dans la régression logistique, la DV catégorielle est une fonction logistique de la combinaison linéaire des IV (généralement continus). Dans l'IRT, les variables catégorielles observées sont fonction logistique de la combinaison linéaire de Fs continus.
ttnphns

Réponses:

11

Jetez un œil à la section 1.6 («La perspective de régression linéaire») dans De Boeck et Wilson (2008) Explanatory Item Response Models ( http://www.springer.com/de/book/9780387402758 ) et Formann, AK (2007) , (Presque) Équivalence entre les estimations de probabilité maximale conditionnelle et de mélange pour certains modèles du type Rasch, dans M. von Davier & CH Carstensen (éd.), Multivariate and mixture mixture Rasch models (pp. 177-189), New York: Springer.

En bref: les modèles IRT sont des modèles d'effets mixtes non linéaires généralisés :

  • le score Ouipje{0,1} d'un étudiant p à un élément je est la variable dépendante,
  • étant donné un trait d'élève échantillonné au hasard, par exemple θpN(μ,σ2), les réponses sont supposées être des Bernoulli indépendants distribués,
  • donné θp, le prédicteur ηpje=logit(P(Ouipje=1)) est une combinaison linéaire des caractéristiques des articles
    ηpje=k=0KbkXjek+θp+εpje,
  • laisser Xjek=-1, si je=k, et Xjek=0, sinon - obtenir ainsi le modèle de Rasch
    P(Ouipje=1θp)=exp(θp-bje)1+exp(θp-bje);

Notez que les modèles IRT sont étendus vers différents aspects:

  • En ce qui concerne le pouvoir discriminatoire (2PL) et le rapport de devinettes (3PL) d'un article
    P(Ouipje=1θp)=cje+(1-cje)exp(uneje(θp-bje))1+exp(uneje(θp-bje))
  • En ce qui concerne les scores polytomiques
    P(Ouipje=kθp)=exp(unejekθp-bjek)k=0Kexp(unejekθp-bjek)
  • En ce qui concerne les caractéristiques connues des élèves constituant la population (p. Ex. Sexe, statut migratoire)
    θpN(Zβ,σ2),
  • En ce qui concerne la construction de la dimensionnalité
    P(Ouipje=1θp)=exp(unejeθp-bje)1+exp(unejeθp-bje),θpN(μ,Σ)
  • En ce qui concerne les classes de compétences discrètes (les distributions continues peuvent être facilement estimées par des classes discrètes)
    P(Ouipje=1θp(l))=exp(θp(l)-bje(l))1+exp(θp(l)-bje(l)),θp(l){θp(1),,θp(L)}

(extrait des diapositives useR! 2015 pour le package R TAM )

À M
la source
3
Il y a aussi du papier disponible gratuitement par de Boeck et al sur ce jstatsoft.org/article/view/v039i12 plus son document statmath.wu.ac.at/courses/deboeck/materials/handouts.pdf
Tim
0

@ La réponse de Tom est excellente, mais j'aimerais proposer une version plus heuristique et qui introduit un concept supplémentaire.

Régression logistique

Imaginez que nous ayons un certain nombre de questions binaires. Si nous sommes intéressés par la probabilité de répondre oui à l'une des questions et si nous sommes intéressés par l'effet de certaines variables indépendantes sur cette probabilité, nous utilisons la régression logistique:

P(yje=1)=11+eXp(Xβ)=logjet-1(Xβ)

où i indexe les questions (c'est-à-dire les items), X est un vecteur des caractéristiques des répondants, et β est l'effet de chacune de ces caractéristiques en termes de log cotes.

IRT

Maintenant, notez que j'ai dit que nous avions un certain nombre de questions binaires. Ces questions peuvent toutes concerner une sorte de trait latent, par exemple la capacité verbale, le niveau de dépression, le niveau d'extraversion. Souvent, nous nous intéressons au niveau du trait latent lui-même.

Par exemple, dans l'examen du dossier d'études supérieures, nous souhaitons caractériser la capacité verbale et mathématique de divers candidats. Nous voulons une bonne mesure de leur score. Nous pourrions évidemment compter le nombre de questions que quelqu'un a correctes, mais cela traite toutes les questions comme valant le même montant - cela ne tient pas explicitement compte du fait que les questions peuvent varier en difficulté. La solution est la théorie de la réponse aux items. Encore une fois, nous ne sommes (pour l'instant) pas intéressés par X ouβ, mais nous sommes simplement intéressés par la capacité verbale de la personne, que nous appellerons θ. Nous utilisons le modèle de réponses de chaque personne à toutes les questions pour estimerθ:

P(yje=1)=logjet-1[uneje(θj-bje)]

unejeest la discrimination de l'élément i etbje c'est sa difficulté.

C'est donc une distinction évidente entre la régression logistique régulière et l'IRT. Dans la première, nous nous intéressons aux effets de variables indépendantes sur une variable dépendante binaire. Dans ce dernier, nous utilisons un tas de variables binaires (ou catégorielles) pour prédire un trait latent. Le message original disait queθest notre variable indépendante. Je serais respectueusement en désaccord, je pense que c'est plus comme ceci est la variable dépendante dans IRT.

J'ai utilisé des articles binaires et une régression logistique pour plus de simplicité, mais l'approche se généralise aux articles commandés et à la régression logistique ordonnée.

IRT explicatif

Et si vous étiez intéressé par les choses qui prédisent le trait latent, à savoir les X etβest mentionné précédemment?

Comme mentionné précédemment, un modèle pour estimer le caractère latent consiste simplement à compter le nombre de réponses correctes ou à additionner toutes les valeurs de vos éléments Likert (c'est-à-dire catégoriques). Cela a ses défauts; vous supposez que chaque élément (ou chaque niveau de chaque élément) vaut la même quantité de trait latent. Cette approche est assez courante dans de nombreux domaines.

Vous pouvez peut-être voir où je veux en venir: vous pouvez utiliser l'IRT pour prédire le niveau du trait latent, puis effectuer une régression linéaire régulière. Cela ignorerait l'incertitude dans le trait latent de chaque personne, cependant.

Une approche plus fondée sur des principes consisterait à utiliser l'IRT explicatif: vous estimez simultanément θen utilisant un modèle IRT et vous estimez l'effet de vos X surθcomme si vous utilisiez une régression linéaire. Vous pouvez même étendre cette approche pour inclure des effets aléatoires afin de représenter, par exemple, le fait que les élèves sont imbriqués dans les écoles.

Plus de lecture disponible sur l'excellente introduction de Phil Chalmers à son mirtpackage. Si vous comprenez les écrous et boulons de l'IRT, j'irais dans la section IRT Mixed Effects de ces diapositives . Stata est également capable d'ajuster des modèles IRT explicatifs (même si je pense qu'il ne peut pas s'adapter à des modèles IRT explicatifs à effets aléatoires comme je l'ai décrit ci-dessus).

Weiwen Ng
la source