Les scores aux tests suivent-ils vraiment une distribution normale?

13

J'ai essayé d'apprendre quelles distributions utiliser dans les GLM, et je suis un peu perplexe sur le moment d'utiliser la distribution normale. Dans une partie de mon manuel, il est dit qu'une distribution normale pourrait être bonne pour modéliser les scores aux examens. Dans la partie suivante, il demande quelle distribution serait appropriée pour modéliser une réclamation d'assurance automobile. Cette fois, il a dit que les distributions appropriées seraient Gamma ou Gaussienne inverse car elles sont continues avec uniquement des valeurs positives. Eh bien, je crois que les résultats aux examens seraient également continus avec uniquement des valeurs positives, alors pourquoi utiliserions-nous une distribution normale? La distribution normale ne permet-elle pas des valeurs négatives?

mistersunnyd
la source
1
Si les limites des scores vous inquiètent, vous pouvez essayer en.wikipedia.org/wiki/Truncated_normal_distribution
JG
5
Dans le monde réel, bien sûr, les distributions des scores aux examens ne ressemblent souvent pas à une distribution normale. À titre d'exemple de mes études de premier cycle en mathématiques, je me souviens que la classe Topologie I était connue pour sa distribution de notes "courbe en haltère" très bimodale: soit vous compreniez les concepts clés et obteniez un score presque parfait, soit vous ne le faisiez pas et étiez chanceux d'obtenir des points. Très peu de gens ont fini par marquer quelque part au milieu entre ces deux extrêmes.
Ilmari Karonen
2
Non. Question suivante.
Carl Witthoft

Réponses:

14

La hauteur, par exemple, est souvent modélisée comme étant normale. Peut-être que la taille des hommes est d'environ 5 pieds 10 avec un écart type de 2 pouces. Nous savons que la hauteur négative n'est pas physique, mais sous ce modèle, la probabilité d'observer une hauteur négative est essentiellement nulle. Nous utilisons quand même le modèle car c'est une approximation assez bonne.

Tous les modèles sont faux. La question est "ce modèle peut-il encore être utile", et dans les cas où nous modélisons des choses comme la hauteur et les résultats des tests, modéliser le phénomène comme normal est utile malgré le fait qu'il autorise techniquement des choses non physiques.

Demetri Pananos
la source
Dans ce cas particulier, on peut se demander si la distribution normale est même une approximation utile . Presque toutes les distributions de notes que j'ai vues ressemblaient dans une certaine mesure à la courbe bimodale mentionnée par Ilmari Karonen dans les commentaires. (Bien que généralement avec des modes autour de 0,6 et 0,9, plutôt qu'aux extrémités) Cependant, une combinaison linéaire de deux distributions normales avec des moyennes différentes ne serait pas une mauvaise approximation.
Ray
Je ne disais pas que la normale est LA MEILLEURE approximation. Le point entier de mon commentaire est vraiment fait dans ce dernier paragraphe. Les commentaires sur la bimodalité des distributions de notes réelles, au moins à ce niveau d'abstraction, ne sont vraiment pas utiles.
Demetri Pananos
Je suis d'accord avec tout ce que vous avez dit dans votre réponse, mais une partie de la question porte sur la question de savoir si la distribution normale est spécifiquement applicable à la modélisation des distributions de notes. Et la réponse à cette question est généralement «non». Tous les modèles sont faux et certains modèles sont utiles, mais certains sont plus faux et moins utiles que d'autres. Le fait que la distribution normale en particulier est un ajustement particulièrement mauvais pour ce problème est important, et la réponse car il est semble indiquer que la normale est que mal parce que les queues vont négatif et infini, quand il y a en réalité beaucoup plus profonds problèmes.
Ray
Tu es un peu pédant ici. Le problème d'OP était que la normale autorise des scores négatifs. La bimodalité n'était pas le problème. Vous ne voyez pas la forêt pour les arbres par rapport à cette question. Les détails de la modélisation ne sont pas pertinents pour le moment.
Demetri Pananos
10

La distribution normale ne permet-elle pas des valeurs négatives?

Correct. Il n'a pas non plus de limite supérieure.

Dans une partie de mon manuel, il est dit qu'une distribution normale pourrait être bonne pour modéliser les scores aux examens.

Malgré les déclarations précédentes, c'est pourtant parfois le cas. Si vous avez de nombreux composants à tester, pas trop étroitement liés (par exemple, vous n'êtes pas essentiellement la même question une douzaine de fois, ni que chaque partie nécessite une réponse correcte à la partie précédente), et pas très facile ni très difficile ( de sorte que la plupart des marques se situent quelque part près du milieu), alors les marques peuvent souvent être raisonnablement bien approximées par une distribution normale; souvent suffisamment bien pour que les analyses typiques ne suscitent que peu de préoccupations.

Nous savons avec certitude qu'elles ne sont pas normales , mais ce n'est pas automatiquement un problème - tant que le comportement des procédures que nous utilisons est suffisamment proche de ce qu'elles devraient être pour nos besoins (par exemple, erreurs standard, intervalles de confiance, niveaux de signification). et le pouvoir - selon les besoins - faire près de ce que nous attendons d'eux)

Dans la partie suivante, il demande quelle distribution serait appropriée pour modéliser une réclamation d'assurance automobile. Cette fois, il a dit que les distributions appropriées seraient Gamma ou Gaussienne inverse car elles sont continues avec uniquement des valeurs positives.

Oui, mais plus que cela - ils ont tendance à être fortement asymétriques à droite et la variabilité a tendance à augmenter lorsque la moyenne augmente.

Voici un exemple de répartition de la taille des revendications pour les réclamations relatives aux véhicules:

https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg

(Fig 5 de Garrido, Genest & Schulz (2016) "Modèles linéaires généralisés pour la fréquence et la gravité des réclamations d'assurance", Insurance: Mathematics and Economics, Vol 70, Sept., p205-215. Https : //www.sciencedirect. com / science / article / pii / S0167668715303358 )

Cela montre une asymétrie droite typique et une queue droite lourde. Cependant, nous devons être très prudents car il s'agit d'une distribution marginale, et nous écrivons un modèle pour la distribution conditionnelle , qui sera généralement beaucoup moins asymétrique (la distribution marginale que nous examinons si nous ne faisons qu'un histogramme des tailles des revendications étant un mélange de ces distributions conditionnelles). Néanmoins, il est généralement vrai que si nous examinons la taille des revendications dans des sous-groupes de prédicteurs (classant peut-être les variables continues), la distribution est toujours fortement asymétrique à droite et assez lourde à droite, ce qui suggère que quelque chose comme un modèle gamma * est probablement plus approprié qu’un modèle gaussien.

* il peut y avoir un certain nombre d'autres distributions qui seraient plus appropriées qu'un gaussien - le gaussien inverse est un autre choix - bien que moins courant; Les modèles lognormaux ou Weibull, bien qu'ils ne soient pas des GLM en l'état, peuvent également être très utiles.

[Il est rare que l'une de ces distributions soit une description presque parfaite; ce sont des approximations inexactes, mais dans de nombreux cas, suffisamment bonnes pour que l'analyse soit utile et se rapproche des propriétés souhaitées.]

Eh bien, je crois que les résultats aux examens seraient également continus avec uniquement des valeurs positives, alors pourquoi utiliserions-nous une distribution normale?

Parce que (dans les conditions que j'ai mentionnées précédemment - beaucoup de composants, pas trop dépendants, pas trop durs ou faciles), la distribution a tendance à être assez proche de symétrique, unimodale et pas lourde.

Glen_b -Reinstate Monica
la source
0

Les scores aux examens pourraient être mieux modélisés par une distribution binomiale. Dans un cas très simplifié, vous pourriez avoir 100 vraies / fausses questions valant chacune 1 point, de sorte que le score serait un entier compris entre 0 et 100. Si vous ne supposez aucune corrélation entre l'exactitude de la personne testée d'un problème à l'autre (hypothèse douteuse cependant ), le score est une somme de variables aléatoires indépendantes et le théorème de la limite centrale s'applique. À mesure que le nombre de questions augmente, la fraction des problèmes corrects converge vers une distribution normale.

Vous posez une bonne question sur les valeurs inférieures à 0. Vous pouvez également poser la même question sur les valeurs supérieures à 100%. À mesure que le nombre de questions de test augmente, la variance de la somme diminue, de sorte que le pic est tiré vers la moyenne. De même, la distribution normale la mieux ajustée aura une variance plus petite et le poids du pdf en dehors de l'intervalle [0, 1] tend vers 0, bien qu'il soit toujours non nul. L'espace entre les valeurs possibles de "fraction correcte" diminuera également (1/100 pour 100 questions, 1/1000 pour 1000 questions, etc.), donc informellement, le pdf commence à se comporter de plus en plus comme un pdf continu.

elplatt
la source