Il est ancré dans l'enseignement des disciplines appliquées, comme la médecine, que les mesures des quantités biomédicales dans la population suivent une «courbe en cloche» normale. Une recherche Google de la chaîne "nous avons supposé une distribution normale" renvoie résultats! Ils sonnent comme «étant donné le petit nombre de points de données extrêmes, nous avons supposé une distribution normale pour les anomalies de température» dans une étude sur le changement climatique; ou "nous avons supposé une distribution normale des dates d'éclosion des poussins" sur un document peut-être moins controversé sur les pingouins; ou "nous avons supposé une distribution normale des chocs de croissance du PIB" ,, ... et d'autres choses).
Récemment, je me suis retrouvé à remettre en question le traitement des données de comptage comme normalement réparties en raison de leur nature strictement positive. Bien sûr, les données de comptage sont discrètes, ce qui rend leur normalité d'autant plus artificielle. Mais même en laissant ce dernier point de côté, pourquoi des mesures empiriques continues telles que le poids, la taille ou la concentration de glucose, jugées prototypiquement "continues", devraient-elles être considérées comme normales? Ils ne peuvent pas avoir plus d'observations négatives réalisées que les comptes!
Je comprends que lorsque l'écart-type est sensiblement inférieur à la moyenne, indiquant peu de valeurs négatives ("vérification de la plage de 95%"), cela peut être une hypothèse pratique, et les histogrammes de fréquence peuvent le soutenir s'il n'est pas trop biaisé. Mais la question ne semblait pas anodine, et une recherche rapide a donné des informations intéressantes.
Dans Nature, nous pouvons trouver la déclaration suivante sur une lettre de DF Heath : "Je tiens à souligner que pour l'analyse statistique de certains types de données, l'hypothèse selon laquelle les données sont tirées d'une population normale est généralement fausse, et que l'alternative l'hypothèse d'une distribution log-normale est meilleure. Cette alternative est largement utilisée par les statisticiens, les économistes et les physiciens, mais pour une raison quelconque, elle est souvent ignorée par les scientifiques de certaines autres disciplines. "
Limpert note que "le modèle log-normal peut servir d'approximation dans le sens où de nombreux scientifiques perçoivent maintenant la normale comme une approximation valide" , tout en notant la faible puissance des tests de qualité de l'ajustement de la normalité et la difficulté de sélectionner la bonne distribution empirique lorsqu'il s'agit de petits échantillons.
Par conséquent, la question est: "Quand est-il acceptable de supposer une distribution normale d'une mesure empirique dans les sciences appliquées sans autre preuve à l'appui?" Et, pourquoi d'autres alternatives, telles que la log-normale, ne l'ont pas, et ne vont probablement pas se concrétiser?
la source
Réponses:
Je trouve votre question vraiment intéressante. Ayons quelques choses en compte:
Cela dit, dire que toute variable observée suit une distribution normale ou Log-Normal semble un peu fou. En pratique, ce qui est fait, c'est que vous mesurez les écarts des fréquences observées par rapport aux fréquences attendues, si cette variable provient d'une population normale (ou de toute autre distribution). Si vous pouvez dire que ces écarts sont simplement aléatoires, parce que vous échantillonnez, alors vous pouvez dire quelque chose comme s'il n'y a pas suffisamment de preuves pour rejeter l'hypothèse nulle que cette variable provient d'une population normale , ce qui se traduit par nous travaillerons comme si ( en supposant que) la variable suit une distribution normale .
En réponse à votre première question, je ne pense pas qu'il y ait quelqu'un d'aussi audacieux pour dire qu'une variable est supposée être normalement distribuée sans autre preuve . Pour dire quelque chose comme ça, vous avez besoin d'au moins un qq-plot, un histogramme, un test d'ajustement ou une combinaison de ceux-ci.
Pour répondre à la deuxième question, l'intérêt particulier pour la distribution normale est que de nombreux tests classiques sont basés sur une hypothèse de normalité de la variable, comme le test t, ou le pour la variance. Donc, la normalité simplifie le travail, c'est tout.χ2
la source