Environ 600 étudiants ont obtenu un score sur une évaluation approfondie, qui peut être considérée comme ayant une bonne fiabilité / validité. L'évaluation est notée sur 100, et c'est un test à choix multiple marqué par ordinateur.
Ces 600 élèves ont également obtenu des notes sur une deuxième évaluation mineure. Dans cette deuxième évaluation, ils sont séparés en 11 cohortes avec 11 classeurs différents, et il y a un degré de variation indésirable important entre les classeurs en termes de `` générosité '' dans le marquage, ou d'absence. Cette deuxième évaluation est également notée sur 100.
Les étudiants n'ont pas été assignés aux cohortes au hasard, et il y a de bonnes raisons de s'attendre à des différences de niveaux de compétence entre les cohortes.
Je suis chargé de veiller à ce que les différences entre les marqueurs de cohorte du deuxième devoir n'affectent / ne désavantagent pas matériellement les étudiants individuels.
Mon idée est de faire coïncider les scores de cohorte de la deuxième évaluation avec les scores de cohorte de la première, tout en maintenant les différences individuelles au sein des cohortes. Nous devons supposer que j'ai de bonnes raisons de croire que les performances sur les deux tâches seront fortement corrélées, mais que les marqueurs diffèrent considérablement dans leur générosité.
Est-ce la meilleure approche? Sinon, c'est quoi?
Il serait grandement apprécié que le répondeur puisse donner quelques conseils pratiques sur la façon de mettre en œuvre une bonne solution, par exemple dans R ou SPSS ou Excel.
la source
Réponses:
Savoir comment niveleuses diffèrent est bon, mais ne vous dit pas ce que pour compenser les grades à . Pour plus de simplicité, imaginez seulement deux niveleuses. Même si nous concluons que la niveleuse 1 est systématiquement 5 points plus généreuse que la niveleuse 2, cela ne vous dit pas quoi faire avec deux élèves qui ont chacun obtenu la note 70, un par la niveleuse 1 et un par la niveleuse 2. Disons-nous que la niveleuse 2 était un marqueur dur, et augmenter que 70 à 75, tout en gardant le 70 marqué par la niveleuse 1 inchangé? Ou supposons-nous que la niveleuse 1 était indulgente, abaissons son élève à 65 points et maintenons la niveleuse 2 70 inchangée? Comprenons-nous à mi-chemin entre - l'étendue de votre cas, sur la base d'une moyenne de 11 élèves? Ce sont les notes absolues qui comptent, donc connaître la générosité relative ne suffit pas.
Votre conclusion peut dépendre de la façon dont vous pensez que la note absolue finale doit être "objective". Un modèle mental serait de proposer à chaque élève une note «correcte» - celle qui serait attribuée par l'évaluateur principal s'il avait le temps de noter chaque article individuellement - à laquelle les notes observées sont des approximations. Dans ce modèle, les notes observées doivent être compensées pour leur classe, afin de les rapprocher le plus possible de leur "vraie" note non observée. Un autre modèle pourrait être que toutes les notes sont subjectives, et nous cherchons à transformer chaque note observée vers la note que nous prévoyons qu'elle aurait été attribuée si tous les correcteurs avaient considéré le même papier et avaient atteint une sorte de compromis ou de note moyenne pour cela. Je trouve le deuxième modèle moins convaincant comme solution même si l'admission de la subjectivité est plus réaliste. Dans un environnement éducatif, il y a généralement quelqu'un qui assume la responsabilité ultime de l'évaluation, pour s'assurer que les étudiants reçoivent "la note qu'ils méritent", mais ce rôle principal a essentiellement déchargé la responsabilité des mêmes élèves que nous connaissons déjà en désaccord marqué. A partir de là, je suppose qu'il y aest une note «correcte» que nous visons à estimer, mais il s'agit d'une proposition contestable et peut ne pas correspondre à votre situation.
Supposons que les élèves A, B, C et D, tous dans la même cohorte, «devraient» être notés respectivement 75, 80, 85 et 90, mais leur généreux correcteur note systématiquement 5 points de trop. Nous observons 80, 85, 90 et 95 et devrions soustraire 5, mais trouver le chiffre à soustraire est problématique. Cela ne peut pas être fait en comparant les résultats entre les cohortes, car nous nous attendons à ce que les cohortes varient en capacité moyenne. Une possibilité consiste à utiliser les résultats des tests à choix multiples pour prédire les bons scores lors de la deuxième affectation, puis à utiliser cette option pour évaluer la variation entre chaque classeur et les bonnes notes. Mais faire cette prédiction n'est pas anodin - si vous vous attendez à une moyenne et à un écart-type différents entre les deux évaluations, vous ne pouvez pas simplement supposer que les deuxièmes notes d'évaluation devraient correspondre à la première.
De plus, les élèves diffèrent dans leurs aptitudes relatives aux évaluations à choix multiples et aux évaluations écrites. Vous pourriez considérer cela comme une sorte d'effet aléatoire, formant une composante des notes «observées» et «vraies» de l'élève, mais non capturé par sa note «prédite». Si les cohortes diffèrent systématiquement et que les étudiants d'une cohorte ont tendance à être similaires, nous ne devrions pas nous attendre à ce que cet effet soit en moyenne nul pour chaque cohorte. Si les notes observées d'une cohorte sont en moyenne de +5 par rapport à celles prévues, il est impossiblepour déterminer si cela est dû à un correcteur généreux, à une cohorte particulièrement mieux adaptée à l'évaluation écrite qu'à choix multiple, ou à une combinaison des deux. Dans un cas extrême, la cohorte peut même avoir une aptitude plus faible lors de la deuxième évaluation, mais cela a été plus que compensé par un correcteur très généreux - ou vice versa. Vous ne pouvez pas le séparer. C'est confondu.
Je doute également de l'adéquation d'un modèle additif aussi simple pour vos données. Les correcteurs peuvent différer de l'évaluateur principal non seulement par le changement de lieu, mais aussi par la propagation - bien que comme les cohortes varient probablement en homogénéité, vous ne pouvez pas simplement vérifier la répartition des notes observées dans chaque cohorte pour le détecter. De plus, la majeure partie de la distribution a des scores élevés, assez proches du maximum théorique de 100. Je prévois que cela introduira une non-linéarité due à une compression proche du maximum - une niveleuse très généreuse peut donner des notes A, B, C et D comme 85, 90, 94, 97. C'est plus difficile à inverser que de simplement soustraire une constante. Pire, vous pourriez voir des «coupures» - une niveleuse extrêmement généreuse peut les classer comme 90, 95, 100, 100. Ceci est impossibleinversé, et les informations sur les performances relatives de C et D sont irrémédiablement perdues.
Vos classeurs se comportent très différemment. Êtes-vous sûr qu'ils ne diffèrent que par leur générosité globale, plutôt que par leur générosité dans les différentes composantes de l'évaluation? Cela pourrait valoir la peine d'être vérifié, car cela pourrait introduire diverses complications - par exemple, la note observée pour B peut être pire que celle de A, bien que B soit 5 points «meilleur», même si les notes attribuées par le correcteur pour chaque composant sont une fonction augmentant de façon monotone de l'évaluateur principal! Supposons que l'évaluation soit divisée entre Q1 (A devrait marquer 30/50, B 45/50) et Q2 (A devrait marquer 45/50, B 35/50). Imaginez que la niveleuse soit très clémente sur Q1 (notes observées: A 40/50, B 50/50) mais sévère sur Q2 (observée: A 42/50, 30/50), alors nous observons des totaux de 82 pour A et 80 pour B. Si vous devez tenir compte des scores des composants,
Il s'agit sans doute d'un commentaire étendu plutôt que d'une réponse, dans le sens où il ne propose pas de solution particulière dans les limites d'origine de votre problème. Mais si vos classeurs traitent déjà environ 55 papiers chacun, alors est-ce si mauvais pour eux d'avoir à en examiner cinq ou dix de plus à des fins d'étalonnage? Vous avez déjà une bonne idée des capacités des élèves, vous pouvez donc choisir un échantillon de documents dans toute la gamme des notes. Vous pouvez ensuite évaluer si vous devez compenser la générosité de la niveleuse sur l'ensemble du test ou dans chaque composant, et si vous devez le faire simplement en ajoutant / soustrayant une constante ou par quelque chose de plus sophistiqué comme l'interpolation (par exemple, si vous avez peur de ne pas linéarité proche de 100). Mais un mot d'avertissement sur l'interpolation: supposons que l'évaluateur principal marque cinq échantillons d'articles comme 70, 75, 80, 85 et 90, alors qu'une niveleuse les marque comme 80, 88, 84, 93 et 96, il y a donc un certain désaccord sur l'ordre. Vous voulez probablement mapper les notes observées de 96 à 100 sur l'intervalle 90 à 100, et les notes observées de 93 à 96 sur l'intervalle 85 à 90. Mais une certaine réflexion est nécessaire pour les notes inférieures. Peut-être que les notes observées de 84 à 93 devraient être mises en correspondance avec l'intervalle 75 à 85? Une alternative serait une régression (éventuellement polynomiale) pour obtenir une formule pour le "vrai grade prévu" à partir du "grade observé". Peut-être que les notes observées de 84 à 93 devraient être mises en correspondance avec l'intervalle 75 à 85? Une alternative serait une régression (éventuellement polynomiale) pour obtenir une formule pour le "vrai grade prévu" à partir du "grade observé". Peut-être que les notes observées de 84 à 93 devraient être mises en correspondance avec l'intervalle 75 à 85? Une alternative serait une régression (éventuellement polynomiale) pour obtenir une formule pour le "vrai grade prévu" à partir du "grade observé".
la source
Un modèle très simple:
Laissers1 , je je s2, je UNE1, … , Ap
Chaque cohorte est biaisée par la force de ses élèves et la facilité du correcteur. En supposant qu'il s'agit d'un effet additif, nous en reculons de la manière suivante: nous soustraireons le score moyen de la cohorte au premier test, et ajouterons le score moyen de la cohorte au deuxième test.
L'inconvénient est qu'un étudiant individuel pourrait être pénalisé si les personnes de sa cohorte se retrouvaient malchanceuses au deuxième test. Mais toute technique statistique va entraîner cet inconvénient potentiellement injuste.
la source
You can't. At least, not without collecting additional data. To see why, read @whuber's numerous upvoted comments throughout this thread.
la source
Edit
The problem solved in this answer is that of finding graders who give less points to the students they dislike.
Original post
Mon approche, qui je pense est facile à mettre en œuvre, serait la suivante:
Laisserμk , i désigner l'élève de classe k , appartenant à la cohorte je obtenu sur la tâche 1. Soit yk , i indiquer la note pour la deuxième affectation.
1
Supposons le modèle
2
LetGi dénoter la générosité du correcteur en nombre de cohorte je . Puis formezy~k , i et assumer le modèle
Et faire 11 estimations individuelles deg et σ
3
Maintenant, une observation inhabituelle est telle que la quantité
Remarque
Toute sont supposés être gaussiens. Les notes ne sont pas normalement distribuées, donc des directives sur la tailleT sont difficiles à donner.
R-code
Vous trouverez ci-dessous le code dans R. Notez que dans votre cas, mu et y seront donnés, de sorte que les lignes générées lorsqu'elles sont affectées de numéros normaux doivent être ignorées. Je les inclue pour pouvoir évaluer le script sans données.
la source
Reformulation du problème: Comment aborder au mieux la fixation d'une note en deux parties à un examen avec les conditions exigeant que la deuxième partie soit exposée à une plus grande incertitude en raison de la gamme d'évaluations qualitatives des marqueurs délégués.
Où: Maître testeur = personne responsable de l'examen Testeur délégué = personne (1 sur 11) assignée à la note # 2 de l'examen Étudiant = le gars qui s'amuse à passer un examen
Les objectifs comprennent: A) Les étudiants reçoivent une note qui reflète leur travail B) Gérer l'incertitude de la deuxième partie pour s'aligner avec l'intention du maître testeur
Approche suggérée (réponse): 1. Master Tester sélectionne au hasard un échantillon représentatif d'examens, marque la partie # 2 et développe la corrélation avec la partie # 1 2. Utilise la corrélation pour évaluer toutes les données des marqueurs délégués (Partie # 1 vs score n ° 2) 3. Lorsque la corrélation est significativement différente de celle du Master Tester - importance d'être acceptable pour le Master Tester - examiner l'examen en tant que Master Tester pour réaffecter le résultat.
Cette approche garantit que le testeur principal est responsable de la corrélation et de la signification acceptable. La corrélation pourrait être aussi simple que le score pour la partie # 1 vs # 2 ou les scores relatifs pour les questions du test # 1 vs # 2.
Le Master Tester sera également en mesure de définir une qualité de résultat pour la partie # 2 basée sur le "caoutchouteux" de la corrélation.
la source