Détecter les schémas de tricherie lors d'un examen à plusieurs questions

25

QUESTION:

J'ai des données binaires sur les questions d'examen (correctes / incorrectes). Certaines personnes peuvent avoir eu accès auparavant à un sous-ensemble de questions et à leurs réponses correctes. Je ne sais pas qui, combien ou quoi. S'il n'y avait pas de triche, supposons que je modélise la probabilité d'une réponse correcte pour l'élément comme , où représente la difficulté de la question et est la capacité latente de l'individu. Il s'agit d'un modèle de réponse d'items très simple qui peut être estimé avec des fonctions comme rasch de ltm () dans R. En plus des estimations (où indexe les individus) de la variable latente, j'ai accès à des estimations séparéesl o g i t ( ( p i = 1 | z ) ) = β i + z β i z z j j q jjelogjet((pje=1|z))=βje+zβjezz^jjq^j de la même variable latente dérivée d'un autre ensemble de données dans lequel la tricherie n'était pas possible.

Le but est d'identifier les individus qui ont probablement triché et les objets sur lesquels ils ont triché. Quelles approches pourriez-vous adopter? En plus des données brutes, , et sont tous disponibles, bien que les deux premiers aient un biais dû à la triche. Idéalement, la solution se présenterait sous la forme d'un regroupement / classification probabiliste, bien que cela ne soit pas nécessaire. Les idées pratiques sont les bienvenues, tout comme les approches formelles. z j q jβ^jez^jq^j

Jusqu'à présent, j'ai comparé la corrélation des scores de questions pour les paires d'individus avec des scores plus élevés vs plus bas (où est un indice approximatif de la probabilité qu'ils aient triché). Par exemple, j'ai trié les individus par , puis tracé la corrélation des paires successives de scores de questions des individus. J'ai également essayé de tracer la corrélation moyenne des scores pour les individus dont les valeurs étaient supérieures au quantile de , en fonction de . Aucun schéma évident pour l'une ou l'autre approche. q j - z j q j - z j q j - z jnth q j - z jnq^j-z^jq^j-z^jq^j-z^jq^j-z^jnthq^j-z^jn


MISE À JOUR:

J'ai fini par combiner les idées de @SheldonCooper et le document utile de Freakonomics vers lequel @whuber m'a pointé. D'autres idées / commentaires / critiques sont les bienvenus.

Soit le score binaire de la personne sur la question . Estimer le modèle de réponse de l'élément où est le paramètre de facilité de l'élément et est une variable de capacité latente. (Un modèle plus compliqué peut être remplacé; I utilise un 2PL dans mon application). Comme je l'ai mentionné dans mon article d'origine, j'ai des estimations de la variable de capacité à partir d'un ensemble de données séparé (différents éléments, mêmes personnes) sur quelle tricherie n'était pas possible. Plus précisément, sont des estimations bayésiennes empiriques du même modèle de réponse d'item que ci-dessus. j i l o g i t ( P r ( X i j = 1 | z j )Xjejjjeβ i z j ^ q j { y i j } ^ q j

logjet(Pr(Xjej=1|zj)=βje+zj,
βjezjqj^{yjej}qj^

La probabilité du score observé , conditionnelle à la facilité de l'item et à la capacité de la personne, peut être écrite où est la probabilité prédite de une réponse correcte, et est le logit inverse. Ensuite, en fonction des caractéristiques de l'élément et de la personne, la probabilité conjointe que la personne ait les observations est et de même, la probabilité conjointe que l'élément ait les observations p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i , ^ q j ) i j , PXjej

pjej=Pr(Xjej=Xjej|βje^,qj^)=Pjej(βje^,qj^)Xjej(1-Pjej(βje^,qj^))1-Xjej,
ilogitj x j p j = i p i j ,i x i p i = j p i j .Pjej(βje^,qj^)=jelogjet(βje^+qj^)jelogjetjXj
pj=jepjej,
jeXje estLes personnes ayant les valeurs les plus faibles sont celles dont les scores observés sont conditionnellement les moins probables - ce sont peut-être des tricheurs. Les éléments avec les valeurs les plus faibles sont ceux qui sont conditionnellement les moins probables - ce sont les éventuels éléments divulgués / partagés. Cette approche repose sur les hypothèses selon lesquelles les modèles sont corrects et que les scores de la personne ne sont pas corrélés en fonction des caractéristiques de la personne et de l'élément. Cependant, une violation de la deuxième hypothèse n'est pas problématique, tant que le degré de corrélation ne varie pas d'une personne à l'autre et que le modèle de pourrait facilement être amélioré (par exemple, en ajoutant des caractéristiques de personne ou d'élément supplémentaires).
pje=jpjej.
p j j ppjpjjpjej

Une autre étape que j'ai essayée est de prendre r% des personnes les moins probables (c'est-à-dire les personnes ayant le r% le plus bas de valeurs triées de p_j), de calculer la distance moyenne entre leurs scores observés x_j (qui devrait être corrélée pour les personnes avec un r faible, qui sont des tricheurs possibles), et tracez-le pour r = 0,001, 0,002, ..., 1.000. La distance moyenne augmente pour r = 0,001 à r = 0,025, atteint un maximum, puis diminue lentement jusqu'à un minimum à r = 1. Pas exactement ce que j'espérais.

verrouillé
la source
4
C'est un problème difficile car vous avez très peu d'informations sur la nature de la tricherie. Comment différenciez-vous un tricheur d'un étudiant qui a étudié très fort? Sans plus d'informations, vous ne pouvez pas. Une possibilité est de savoir si les élèves peuvent tricher en se copiant les uns les autres, ou si des sous-ensembles d'élèves ont eu accès aux mêmes réponses. Si tel est le cas, vous pouvez créer une fonction de distance entre les élèves (une distance plus faible signifie qu'ils ont bien réussi sur les mêmes questions) et rechercher des modèles ici. Ce serait plus concluant à l'OMI.
rm999
2
Levitt et Dubner décrivent leur approche dans Freakonomics ( freakonomicsmedia.com ).
whuber
@ rm999 Pour clarifier, les tricheurs avaient accès au même sous-ensemble de questions (par exemple, une clé de réponse partielle a été divulguée avant l'administration de l'examen). Je ne suis pas intéressé à tricher qui aurait pu se produire lors de la copie. Je réviserai ma question au cours du week-end si cela n'est pas clair.
verrouillé
@whuber Merci, je vais chercher le papier (en supposant qu'il soit publié). J'ai écouté le livre audio, mais je ne me souviens pas des détails sur la façon dont ils ont identifié les tricheurs (qui étaient des enseignants qui trompaient les réponses des élèves, je crois).
verrouillé
Si je me souviens du cas Freakonomics, il s'agissait de repérer des enfants de la même école / classe qui avaient (a) de grands sauts par rapport à l'année précédente, (b) des réponses différentes pour les questions plus faciles plus tôt, et (c) des séquences identiques de réponses pour des questions plus difficiles plus tard, suggérant ainsi un enseignant remplissant les réponses que les enfants avaient laissées en blanc.
Henry

Réponses:

4

Approche ad hoc

Je suppose que est raisonnablement fiable car il a été estimé sur de nombreux étudiants, la plupart d'entre eux n'ayant pas triché sur la question . Pour chaque élève , triez les questions par ordre croissant de difficulté, calculez (notez que i j β i + q j q jβjejejβje+qjqjest juste un décalage constant) et le seuil à un endroit raisonnable (par exemple p (correct) <0,6). Cela donne un ensemble de questions auxquelles l'étudiant est peu susceptible de répondre correctement. Vous pouvez maintenant utiliser des tests d'hypothèse pour voir si cela est violé, auquel cas l'étudiant a probablement triché (en supposant bien sûr que votre modèle est correct). Une mise en garde est que s'il y a peu de telles questions, vous pourriez ne pas avoir suffisamment de données pour que le test soit fiable. De plus, je ne pense pas qu'il soit possible de déterminer sur quelle question il a triché, car il a toujours 50% de chances de deviner. Mais si vous supposez en outre que de nombreux étudiants ont eu accès (et trompé) au même ensemble de questions, vous pouvez les comparer entre les étudiants et voir quelles questions ont obtenu une réponse plus souvent que par hasard.

Vous pouvez faire une astuce similaire avec des questions. Par exemple, pour chaque question, triez les élèves par , ajoutez (il s'agit désormais d'un décalage constant) et le seuil à la probabilité 0,6. Cela vous donne une liste d'étudiants qui ne devraient pas être en mesure de répondre correctement à cette question. Ils ont donc 60% de chances de deviner. Encore une fois, faites des tests d'hypothèse et voyez si cela est violé. Cela ne fonctionne que si la plupart des élèves ont triché sur le même ensemble de questions (par exemple, si un sous-ensemble de questions a «fui» avant l'examen).β iqjβje

Approche de principe

Pour chaque élève, il existe une variable binaire avec un a priori de Bernoulli avec une probabilité appropriée, indiquant si l'élève est un tricheur. Pour chaque question, il y a une variable binaire , toujours avec un préalable de Bernoulli approprié, indiquant si la question a été divulguée. Il y a ensuite un ensemble de variables binaires , indiquant si l'élève répondu correctement à la question . Si et , alors la distribution de est Bernoulli avec une probabilité de 0,99. Sinon, la distribution est . Ces sont les variables observées.l i a i j j i c j = 1 l i = 1 a i j l o g i t ( β i + q j ) a i j c j l icjljeunejejjjecj=1lje=1unejejlogjet(βje+qj)unejejcj et sont masqués et doivent être déduits. Vous pouvez probablement le faire en échantillonnant Gibbs. Mais d'autres approches pourraient également être envisageables, peut-être quelque chose lié au biclustering.lje

Sheldon Cooper
la source
J'ai lu la première partie de votre réponse et je pense que c'est prometteur. Deux notes rapides - c'était un choix multiple, donc les probabilités de deviner correctement sont de 25% ou 20%. Vous avez raison, car nous pouvons supposer qu'un sous-ensemble de questions a été divulgué avant l'examen. J'y reviendrai dimanche ou lundi.
verrouillé
3

Si vous souhaitez vous lancer dans des approches plus complexes, vous pouvez vous pencher sur les modèles théoriques de réponse aux éléments. Vous pouvez ensuite modéliser la difficulté de chaque question. Je pense que les élèves qui ont corrigé des éléments difficiles tout en manquant des éléments plus faciles seraient plus susceptibles de tricher que ceux qui ont fait l'inverse.

Cela fait plus d'une décennie que j'ai fait ce genre de chose, mais je pense que cela pourrait être prometteur. Pour plus de détails, consultez les livres sur la psychométrie

Peter Flom - Réintégrer Monica
la source
Habituellement, la tricherie ou les devinettes peuvent être intégrées directement dans un IRM. C'est essentiellement ce que le modèle 3-PL a l'intention de faire, car il comprend un paramètre de difficulté , de discrimination et de devinette qui agit comme une asymptote inférieure pour la probabilité d'approuver un élément. Cependant, il s'est avéré irréaliste dans la plupart des situations, et d'autres statistiques dédiées à la personne ont été développées parallèlement (soit dans le cadre de tests éducatifs ou d'évaluations psychologiques). Meijer, Recherche Person-Fit: une introduction. APM (1996), 9: 3-8 a une belle revue sur les modèles de réponse aberrants.
chl
@chl Merci! J'ai étudié ce genre de choses à l'école, mais c'était il y a longtemps - ma dernière classe était en 1996 environ.
Peter Flom - Réintègre Monica
@chl Merci pour vos suggestions. Le modèle de ma question est en fait un modèle de réponse d'item (un modèle Rasch ou 1PL avec paramètre de discrimination fixe). Je pense que la suggestion d'examiner les individus avec des performances aberrantes est un bon début, mais je recherche une approche qui tire parti des informations supplémentaires fournies par la corrélation dans les réponses des tricheurs pour les éléments sur lesquels il y a eu tricherie. Vous pouvez imaginer que si nous utilisions votre procédure pour identifier les tricheurs, par exemple, ils fonctionneraient bien sur des éléments difficiles similaires.
verrouillé