12 enseignants enseignent à 600 élèves. Les 12 cohortes enseignées par ces enseignants varient en taille de 40 à 90 étudiants, et nous nous attendons à des différences systématiques entre les cohortes, car les étudiants diplômés ont été répartis de manière disproportionnée dans des cohortes particulières, et l'expérience antérieure a montré que les étudiants diplômés obtiennent en moyenne un score considérablement plus élevé que les étudiants de premier cycle.
Les enseignants ont noté tous les articles de leur cohorte et leur ont attribué une note sur 100.
Chaque enseignant a également examiné un article choisi au hasard parmi trois autres enseignants et lui a attribué une note sur 100. Chaque enseignant a fait noter trois de ses articles par un autre enseignant. 36 papiers différents ont ainsi été croisés de cette façon, et j'appelle cela mes données d'étalonnage.
Je peux également voir combien d'étudiants diplômés étaient dans chaque cohorte.
Mes questions sont:
A) Comment puis-je utiliser ces données d'étalonnage pour ajuster les marques d'origine afin de les rendre plus justes? En particulier, je voudrais effacer autant que possible les effets de fabricants trop généreux / peu généreux.
B) Dans quelle mesure mes données d'étalonnage sont-elles appropriées? Je n'avais pas le choix dans les 36 points de données assez limités des données d'étalonnage que j'ai obtenues dans ce cours, et je n'ai pas d'autre option pour en collecter plus pendant le semestre en cours. Cependant, si cette situation se reproduit, je pourrai peut-être collecter davantage de données d'étalonnage ou bien collecter différents types de données d'étalonnage.
Cette question est relative à une question populaire que j'ai posée à: Comment puis-je gérer au mieux les effets des marqueurs avec différents niveaux de générosité dans la notation des articles des étudiants? . Cependant, c'est un cours différent et je ne sais pas à quel point la lecture de cette question serait utile pour la présente, car le problème principal était que je n'avais pas de données d'étalonnage.
la source
lm(score ~ gradStudent + ... + teacherID
ça devrait le faire.Voici quelques approches connexes.
Prenez l'ensemble des articles marqués par plus d'un enseignant, car ceux-ci contiennent le plus d'informations sur les effets de l'enseignant et en dehors de ces articles, les effets enseignant et cohorte sont confondus (s'il y avait un moyen d'obtenir l'effet de cohorte - peut-être via GPA ou un autre prédicteur, par exemple, alors vous pouvez utiliser toutes les données, mais cela compliquera un peu les modèles).
Vous devez d'abord considérer votre modèle pour savoir comment l'effet marqueur s'applique. Est-ce additif? Est-ce multiplicatif? Devez-vous vous soucier des effets de frontière (par exemple, un effet additif ou multiplicatif sur une échelle logit serait-il meilleur)?
(Vous n'aurez pas suffisamment de données ici pour estimer la forme de générosité ainsi que sa taille. Vous devez choisir un modèle en fonction de votre compréhension de la situation. Vous devrez également ignorer toute possibilité d'interaction; vous n'avez pas avoir les données pour cela)
Possibilité 1 - modèle additif simple. Cela pourrait convenir si aucune marque n'était vraiment proche de 0 ou 100:
Il s'agit essentiellement d'une ANOVA bidirectionnelle. Vous avez besoin de contraintes à ce sujet, vous pouvez donc configurer un codage d'écart / configurer le modèle de sorte que les effets de marqueur soient 0, ou vous pouvez configurer un modèle où un marqueur est la ligne de base (dont l'effet est 0 et dont vous marquez va essayer d'ajuster tous les autres marqueurs vers).
la source