Comment puis-je utiliser ces données pour calibrer des marqueurs avec différents niveaux de générosité dans la notation des articles des étudiants?

9

12 enseignants enseignent à 600 élèves. Les 12 cohortes enseignées par ces enseignants varient en taille de 40 à 90 étudiants, et nous nous attendons à des différences systématiques entre les cohortes, car les étudiants diplômés ont été répartis de manière disproportionnée dans des cohortes particulières, et l'expérience antérieure a montré que les étudiants diplômés obtiennent en moyenne un score considérablement plus élevé que les étudiants de premier cycle.

Les enseignants ont noté tous les articles de leur cohorte et leur ont attribué une note sur 100.

Chaque enseignant a également examiné un article choisi au hasard parmi trois autres enseignants et lui a attribué une note sur 100. Chaque enseignant a fait noter trois de ses articles par un autre enseignant. 36 papiers différents ont ainsi été croisés de cette façon, et j'appelle cela mes données d'étalonnage.

Je peux également voir combien d'étudiants diplômés étaient dans chaque cohorte.

Mes questions sont:

A) Comment puis-je utiliser ces données d'étalonnage pour ajuster les marques d'origine afin de les rendre plus justes? En particulier, je voudrais effacer autant que possible les effets de fabricants trop généreux / peu généreux.

B) Dans quelle mesure mes données d'étalonnage sont-elles appropriées? Je n'avais pas le choix dans les 36 points de données assez limités des données d'étalonnage que j'ai obtenues dans ce cours, et je n'ai pas d'autre option pour en collecter plus pendant le semestre en cours. Cependant, si cette situation se reproduit, je pourrai peut-être collecter davantage de données d'étalonnage ou bien collecter différents types de données d'étalonnage.

Cette question est relative à une question populaire que j'ai posée à: Comment puis-je gérer au mieux les effets des marqueurs avec différents niveaux de générosité dans la notation des articles des étudiants? . Cependant, c'est un cours différent et je ne sais pas à quel point la lecture de cette question serait utile pour la présente, car le problème principal était que je n'avais pas de données d'étalonnage.

teaching agreement-statistics user1205901 - Réintégrer Monica
la source

6

Cela semble être une excellente occasion d'utiliser un système de recommandation de factorisation matricielle . En bref, cela fonctionne comme suit:

Mettez vos observations dans une matrice partiellement observée où est le score que donné à l'élève . $M$ $M_{ij}$ $i$ $j$
Supposons que cette matrice est le produit externe de certains vecteurs de caractéristiques latentes, et - c'est-à-dire . $\vec t$ $\vec s$ $M_{ij} = t_i s_j$
Résoudre pour les vecteurs de caractéristiques latentes qui minimisent l'erreur de reconstruction au carré (où la somme s'étend sur toutes les cellules observées de ). $\sum_{i,j} (t_is_j - M_{ij})^2$ $M$
Vous pouvez faire ce style de maximisation des attentes en fixant une supposition pour et en résolvant pour via les moindres carrés, puis en fixant cette supposition pour et en résolvant pour et en itérant jusqu'à convergence. $\vec t$ $\vec s$ $\vec s$ $\vec t$

Notez que cela fait une hypothèse assez forte sur la forme du biais d'un enseignant - en particulier, si vous considérez les caractéristiques latentes des élèves comme leur «vrai score», alors le biais d'un enseignant multiplie chaque vrai score par un montant constant (à rendez-le additif à la place, vous exponentierez les scores que vous insérez dans la matrice, puis apprendrez les exponentielles des "vrais scores"). Avec si peu de données d'étalonnage, vous ne pouvez probablement pas aller très loin sans faire une hypothèse forte de ce formulaire, mais si vous aviez plus de données, vous pourriez ajouter une deuxième dimension de fonctionnalités latentes, etc. (c'est-à-dire, supposer et essayez à nouveau de minimiser l'erreur de reconstruction au carré). $M_{ij} = \sum_{k=1}^n s_{ik} t_{kj}$

EDIT: pour avoir un problème bien défini, vous devez avoir plus d'opérations matricielles que de paramètres latents (ou vous pouvez utiliser une sorte de régularisation). Vous avez à peine cela ici (vous avez 636 observations et 612 paramètres latents), donc la factorisation de la matrice peut ne pas fonctionner très bien - je n'ai pas travaillé avec eux sur de si petits échantillons, donc je ne sais pas vraiment.

Si l'étalonnage s'avère insuffisant pour utiliser un bon modèle de recommandation, vous pouvez essayer une régression à plusieurs niveaux sur Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)(en ignorant les données d'étalonnage) pour extraire les estimations d'un biais enseignant additif, puis vérifier si ce biais est cohérent avec les données d'étalonnage que vous a pris. (Si possible, vous devez autoriser l'hétéroscédasticité par l'enseignant.) Ceci est plus ponctuel mais peut vous poser des problèmes de collecte de données moins graves.

Ben Kuhn
la source

Pour développer cela, je commencerais probablement par un modèle simple avec des effets fixes pour les enseignants et des erreurs standard robustes potentiellement groupées (voir cet article de blog pour une discussion à ce sujet dans R), puis comparer les effets fixes pour toutes les valeurs aberrantes. Dans R, quelque chose comme lm(score ~ gradStudent + ... + teacherIDça devrait le faire.

iacobus

2

Voici quelques approches connexes.

Prenez l'ensemble des articles marqués par plus d'un enseignant, car ceux-ci contiennent le plus d'informations sur les effets de l'enseignant et en dehors de ces articles, les effets enseignant et cohorte sont confondus (s'il y avait un moyen d'obtenir l'effet de cohorte - peut-être via GPA ou un autre prédicteur, par exemple, alors vous pouvez utiliser toutes les données, mais cela compliquera un peu les modèles).

$i=1,2, ... n$ $j=1, 2, ...,m$ $y_{ij}, i=1,2, ... m$

Vous devez d'abord considérer votre modèle pour savoir comment l'effet marqueur s'applique. Est-ce additif? Est-ce multiplicatif? Devez-vous vous soucier des effets de frontière (par exemple, un effet additif ou multiplicatif sur une échelle logit serait-il meilleur)?

$p_{ij}=m_{ij}/100$ $p$ $\log(p_{ij}/(1-p_{ij})$

(Vous n'aurez pas suffisamment de données ici pour estimer la forme de générosité ainsi que sa taille. Vous devez choisir un modèle en fonction de votre compréhension de la situation. Vous devrez également ignorer toute possibilité d'interaction; vous n'avez pas avoir les données pour cela)

Possibilité 1 - modèle additif simple. Cela pourrait convenir si aucune marque n'était vraiment proche de 0 ou 100:

$E(y_{ij}) = \mu_{i}+\tau_j$

Il s'agit essentiellement d'une ANOVA bidirectionnelle. Vous avez besoin de contraintes à ce sujet, vous pouvez donc configurer un codage d'écart / configurer le modèle de sorte que les effets de marqueur soient 0, ou vous pouvez configurer un modèle où un marqueur est la ligne de base (dont l'effet est 0 et dont vous marquez va essayer d'ajuster tous les autres marqueurs vers).

$\hat{\tau}_j$ $y_{kj}^\text{adj}=y_{kj}-\hat{\tau}_j$

$E(y_{ij}) = \mu_{i}\tau_j$ $\tau$

$\hat{\tau_j}$

$1-p=(100-m)/100$

Glen_b -Reinstate Monica
la source

Comment puis-je utiliser ces données pour calibrer des marqueurs avec différents niveaux de générosité dans la notation des articles des étudiants?

Réponses: