Comment tester formellement une «rupture» dans une distribution normale (ou autre)

10

Il arrive fréquemment en sciences sociales que les variables qui devraient être distribuées d'une certaine manière, disons normalement, finissent par avoir une discontinuité dans leur distribution autour de certains points.

Par exemple, s'il existe des seuils spécifiques tels que "réussite / échec" et si ces mesures sont sujettes à distorsion, il peut y avoir une discontinuité à ce stade.

Un exemple frappant (cité ci-dessous) est que les résultats des tests standardisés des étudiants sont normalement distribués pratiquement partout sauf à 60% où il y a très peu de masse de 50 à 60% et une masse excessive autour de 60 à 65%. Cela se produit dans les cas où les enseignants notent les examens de leurs propres élèves. Les auteurs examinent si les enseignants aident réellement les élèves à réussir les examens.

La preuve la plus convaincante vient sans aucun doute de l'affichage des graphiques d'une courbe en cloche avec une grande discontinuité autour de différents seuils pour différents tests. Cependant, comment procéderiez-vous pour développer un test statistique? Ils ont essayé l'interpolation puis comparé la fraction au-dessus ou au-dessous et également un test t sur la fraction à 5 points au-dessus et au-dessous du seuil. Bien que sensées, elles sont ponctuelles. Quelqu'un peut-il penser à quelque chose de mieux?

Lien: Règles et discrétion dans l'évaluation des élèves et des écoles: le cas des examens des régents de New York http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

La distribution des résultats des tests, ceux manipulables en noir, notent la forte baisse de densité en dessous du seuil et l'élévation correspondante au-dessus

d_a_c321
la source
Juste pour clarifier - testez-vous pour un manque générique, par exemple, de normalité, ou pour la présence d'une discontinuité à un point prédéterminé? Votre exemple est de ce dernier, mais bien sûr, tout test de qualité d'ajustement, par exemple, Anderson-Darling ou Shapiro-Wilk pour Normality servira, bien qu'avec une alternative très spécifique, vous pourriez construire des tests plus puissants. De plus, dans votre graphique ci-dessus, vous avez évidemment un échantillon de milliers; serait-ce typique aussi?
jbowman

Réponses:

6

Il est important de bien encadrer la question et d'adopter un modèle conceptuel utile des scores.

La question

Les seuils de triche potentiels, tels que 55, 65 et 85, sont connus a priori indépendamment des données: ils n'ont pas à être déterminés à partir des données. (Par conséquent, il ne s'agit ni d'un problème de détection de valeurs aberrantes ni d'un problème d'ajustement de la distribution.) Le test devrait évaluer la preuve que certains scores (pas tous) un peu moins que ces seuils ont été déplacés vers ces seuils (ou, peut-être, juste au-dessus de ces seuils).

Modèle conceptuel

Pour le modèle conceptuel, il est crucial de comprendre qu'il est peu probable que les scores aient une distribution normale (ni aucune autre distribution facilement paramétrable). Cela est parfaitement clair dans l'exemple publié et dans tous les autres exemples du rapport d'origine. Ces scores représentent un mélange d'écoles; même si les distributions au sein d'une école étaient normales (elles ne le sont pas), le mélange n'est probablement pas normal.

Une approche simple accepte qu'il existe une véritable distribution des scores: celle qui serait rapportée, sauf pour cette forme particulière de tricherie. Il s'agit donc d'un paramètre non paramétrique. Cela semble trop large, mais certaines caractéristiques de la distribution des scores peuvent être anticipées ou observées dans les données réelles:

  1. Les décomptes des scores , i et i + 1 seront étroitement corrélés, 1 i 99 .je-1jeje+11je99

  2. Il y aura des variations de ces décomptes autour d'une version lisse idéalisée de la distribution des scores. Ces variations seront généralement d'une taille égale à la racine carrée du compte.

  3. La tricherie par rapport à un seuil n'affectera pas les comptes pour tout score i t . Son effet est proportionnel au décompte de chaque score (le nombre d'élèves "à risque" d'être affectés par la tricherie). Pour les scores i inférieurs à ce seuil, le nombre c ( i ) sera réduit d'une fraction δ ( t - i ) c ( i ) et ce montant sera ajouté à t ( i ) .tjetjec(je)δ(t-je)c(je)t(je)

  4. La quantité de changement diminue avec la distance entre un score et le seuil: est une fonction décroissante de i = 1 , 2 , .δ(je)je=1,2,

Étant donné un seuil , l'hypothèse nulle (pas de tricherie) est que δ ( 1 ) = 0 , ce qui implique que δ est identique à 0 . L'alternative est que δ ( 1 ) > 0 .tδ(1)=0δ0δ(1)>0

Construire un test

Quelle statistique de test utiliser? Selon ces hypothèses, (a) l'effet est additif dans les dénombrements et (b) le plus grand effet se produira juste autour du seuil. Cela indique que l'on regarde les premières différences des comptes, . Un examen plus approfondi suggère d'aller plus loin: dans l'hypothèse alternative, nous nous attendons à voir une séquence de dénombrements progressivement déprimés lorsque le score i s'approche du seuil t par le bas, puis (i) un grand changement positif à t suivi de (ii) a grand changement négatif àc(je)=c(je+1)-c(je)jett . Pour maximiser la puissance du test, regardons lessecondes différences,t+1

c(je)=c(je+1)-c(je)=c(je+2)-2c(je+1)+c(je),

car à cela combinera une baisse négative plus importante c ( t + 1 ) - c ( t ) avec le négatif d'une forte augmentation positive c ( t ) - c ( t - 1 ) , amplifiant ainsi l'effet de tricherie .je=t-1c(t+1)-c(t)c(t)-c(t-1)

Je vais émettre l'hypothèse - et cela peut être vérifié - que la corrélation en série des dénombrements près du seuil est assez faible. (La corrélation en série ailleurs n'est pas pertinente.) Cela implique que la variance de est approximativementc(t-1)=c(t+1)-2c(t)+c(t-1)

var(c(t-1))var(c(t+1))+(-2)2var(c(t))+var(c(t-1)).

J'ai déjà suggéré que pour tout i (quelque chose qui peut également être vérifié). D'oùvar(c(je))c(je)je

z=c(t-1)/c(t+1)+4c(t)+c(t-1)

devrait avoir approximativement une variance d'unité. Pour les populations à grand score (celle affichée semble être d'environ 20 000), nous pouvons également nous attendre à une distribution approximativement normale de . Puisque nous nous attendons à ce qu'une valeur très négative indique un modèle de triche, nous obtenons facilement un test de taille α : en écrivant Φ pour le cdf de la distribution normale standard, rejetons l'hypothèse de non-triche au seuil t lorsque Φ ( z ) < α .c(t-1)αΦtΦ(z)<α

Exemple

Par exemple, considérons cet ensemble de résultats de test réels , tirés de iid à partir d'un mélange de trois distributions normales:

Histogramme des vrais scores

t=65δ(je)=exp(-2je)

Histogramme des scores après avoir triché

zt

Terrain de Z

z

z=-4.19Φ(z)=0,0000136

z

Lors de l'application de ce test à plusieurs seuils, un ajustement de Bonferroni de la taille du test serait judicieux. Un ajustement supplémentaire lorsqu'il est appliqué à plusieurs tests en même temps serait également une bonne idée.

Évaluation

zz est si simple, les simulations seront réalisables et rapides à exécuter.

whuber
la source
z
1

Je suggère d'ajuster un modèle qui prédit explicitement les creux et de montrer ensuite qu'il correspond beaucoup mieux aux données qu'un modèle naïf.

Vous avez besoin de deux composants:

  • distribution initiale des scores,
  • procédure de revérification (honnête ou non) des scores lorsque l'on se situe en dessous d'un seuil.

t

pFjenunel(s)=pjenjetjeunel(s)-pjenjetjeunel(s)m(st)+δ(s=t)s=0t-1pjenjetjeunel(s)m(st),
  • pFjenunel(s)
  • pjenjetjeunel(s)
  • m(st)st
  • δ(s=t)s=t

m(st)uneqt-sune

Comme distribution initiale, vous pouvez essayer d'utiliser la distribution de Poisson ou gaussienne. Bien sûr, il serait idéalement d'avoir le même test, mais pour un groupe d'enseignants, fournir des seuils et pour l'autre - pas de seuils.

tjeuneje

Remarques:

  • Parfois, il existe des procédures de contrôle des tests s'il y a juste en dessous de la note de passage. Ensuite, il est plus difficile de dire quels cas étaient honnêtes et lesquels - non.
  • m(st)s
  • tδ(s=t)
Piotr Migdal
la source
Je ne suis pas sûr que cela réponde à ma question exacte. Dans ce cas, nous n'avons pas la possibilité de revérifier les examens. Tout ce qui est observé est une distribution des scores finaux. La distribution est généralement normale. Sauf qu'autour d'un certain point de coupure où l'on soupçonne une manipulation, il y a rupture dans la courbe normale. Si la valeur nulle est que la courbe serait "lisse" à ce point, comment pouvons-nous la tester par rapport à une hypothèse alternative où elle est "cahoteuse"
d_a_c321
Je pense que je minimise la question. Mon but était de: ajuster la gaussienne (2 paramètres) et calculerX2pFjenunelX2s=099|p(s+1)-p(s)|2) peut être intéressant, mais il est important de vérifier les hypothèses sous-jacentes, etc. (par exemple, pour les tests comportant beaucoup de questions sur 2 points, il peut y avoir un écart "initial" assez élevé). Si l'on a accès aux données brutes (c'est-à-dire toutes les réponses, pas seulement les scores totaux), il y a encore plus de place pour les tests ...
Piotr Migdal
1

Je diviserais ce problème en deux sous-problèmes:

  • Estimer les paramètres d'une distribution pour ajuster les données
  • Effectuer la détection des valeurs aberrantes à l'aide de la distribution ajustée

Il existe différentes manières de résoudre l'un ou l'autre des sous-problèmes.

Il me semble qu'une distribution de Poisson conviendrait aux données, si elle était distribuée de manière indépendante et identique (iid) , ce qui bien sûr nous pensons que ce n'est pas le cas. Si nous essayons naïvement d'estimer les paramètres de la distribution, nous serons biaisés par les valeurs aberrantes. Deux façons possibles de surmonter ce problème sont d'utiliser des techniques de régression robuste ou une méthode heuristique telle que la validation croisée.

Pour la détection des valeurs aberrantes, il existe à nouveau de nombreuses approches. Le plus simple est d'utiliser les intervalles de confiance de la distribution que nous avons ajustée à l'étape 1. Les autres méthodes incluent les méthodes bootstrap et les approches Monte-Carlo.

Bien que cela ne vous dise pas qu'il y a un "saut" dans la distribution, il vous dira s'il y a plus de valeurs aberrantes que prévu pour la taille de l'échantillon.

Une approche plus complexe consisterait à construire divers modèles pour les données, comme les distributions composées, et à utiliser une sorte de méthode de comparaison de modèles (AIC / BIC) pour déterminer lequel des modèles est le mieux adapté aux données. Cependant, si vous recherchez simplement un "écart par rapport à une distribution attendue", cela semble exagéré.

tdc
la source