Raisons pour que les données soient normalement distribuées

19

Quels sont les théorèmes qui pourraient expliquer (c.-à-d. De manière généralisée) pourquoi les données du monde réel devraient normalement être distribuées?

J'en connais deux:

  1. Le théorème de la limite centrale (bien sûr), qui nous dit que la somme de plusieurs variables aléatoires indépendantes avec moyenne et variance (même lorsqu'elles ne sont pas distribuées de manière identique) tend à être normalement distribuée

  2. Soit X et Y des RV continus indépendants avec des densités différenciables telles que leur densité conjointe ne dépend que de + . Alors X et Y sont normaux.X2y2

(cross-post de mathexchange )

Edit: Pour clarifier, je ne prétends pas combien de données du monde réel sont normalement distribuées. Je pose simplement des questions sur les théorèmes qui peuvent donner un aperçu du type de processus pouvant conduire à des données normalement distribuées.

anonyme
la source
7
Vous trouverez peut-être des informations intéressantes dans notre fil de discussion sur stats.stackexchange.com/questions/4364 . Pour éviter toute confusion potentielle parmi certains lecteurs, je voudrais ajouter (et j'espère que c'était votre intention) que votre question ne doit pas être lue comme suggérant que tous ou même la plupart des ensembles de données réels peuvent être correctement approchés par une distribution normale. Au contraire, dans certains cas, lorsque certaines conditions sont remplies, il pourrait être utile d'utiliser une distribution normale comme cadre de référence pour comprendre ou interpréter les données: quelles pourraient donc être ces conditions?
whuber
Merci pour le lien! Et c'est exactement ça, merci pour la clarification. Je vais le modifier dans le message d'origine.
anonyme
@ user43228, " Il y a, bien sûr, des tonnes d'autres distributions qui surviennent dans des problèmes du monde réel qui ne semblent pas du tout normales. " askamathematician.com/2010/02/…
Pacerier

Réponses:

17

De nombreuses distributions limites de VR discrets (poisson, binôme, etc.) sont approximativement normales. Pensez au plinko. Dans presque tous les cas où la normalité approximative est vérifiée, la normalité ne se déclenche que pour les échantillons de grande taille.

La plupart des données réelles ne sont PAS normalement distribuées. Un article de Micceri (1989) intitulé " La licorne, la courbe normale et d'autres créatures improbables " a examiné 440 réalisations à grande échelle et mesures psychométriques. Il a trouvé beaucoup de variabilité dans les distributions par rapport à leurs moments et peu de preuves de normalité (même approximative).

Dans un article de Steven Stigler de 1977 intitulé " Les estimateurs robustes travaillent avec des données réelles ", il a utilisé 24 ensembles de données collectées à partir de tentatives célèbres du XVIIIe siècle pour mesurer la distance de la terre au soleil et de tentatives du 19e siècle pour mesurer la vitesse de la lumière. Il a signalé une asymétrie et une kurtose de l'échantillon dans le tableau 3. Les données sont très détaillées.

En statistiques, nous supposons souvent la normalité car cela rend la probabilité maximale (ou une autre méthode) pratique. Ce que les deux articles cités ci-dessus montrent cependant, c'est que l'hypothèse est souvent ténue. C'est pourquoi les études de robustesse sont utiles.

bsbk
la source
2
La plupart de ce post est génial, mais le paragraphe d'introduction me dérange car il pourrait si facilement être mal interprété. Il semble dire - plutôt explicitement - qu'en général, un "grand échantillon" aura l'air normalement distribué. À la lumière de vos remarques ultérieures, je ne pense pas que vous vouliez vraiment dire cela.
whuber
J'aurais dû être plus clair - je ne dis pas que la plupart des données du monde réel sont normalement distribuées. Mais c'est un excellent point à soulever. Et je suppose que ce que vous voulez dire est que la distribution binomiale avec un grand n est normale, et que la distribution du poisson avec une grande moyenne est normale. Quelles autres distributions tendent vers la normalité?
anonyme
Merci, j'ai édité le premier paragraphe. Voir Wald et Wolfowitz (1944) pour un théorème sur les formes linéaires sous permutation, par exemple. C'est-à-dire qu'ils ont montré que la statistique t à deux échantillons sous permutation est asymptotiquement normale.
bsbk
Une distribution d'échantillonnage n'est pas un "ensemble de données du monde réel"! Peut-être que la difficulté que j'ai avec des incohérences apparentes dans votre message provient de cette confusion entre la distribution et les données. Cela découle peut-être d'un manque de clarté sur le processus "limitant" auquel vous pensez réellement.
whuber
3
La question initiale était d'expliquer "de manière généralisée" comment les données normales du monde réel pouvaient se produire. Il est concevable que des données réelles puissent être générées à partir d'un processus binomial ou poisson, les deux pouvant être approximés par la distribution normale. L'op a demandé d'autres exemples et celui qui me vient à l'esprit est la distribution de permutation, qui est asymptotiquement normale (en l'absence de liens). Je ne peux pas penser à un moyen hors de portée que des données réelles soient générées à partir de cette distribution, alors peut-être que celle-ci est un tronçon.
bsbk
10

Il existe également une justification théorique de l'information pour l'utilisation de la distribution normale. Étant donné la moyenne et la variance, la distribution normale a une entropie maximale parmi toutes les distributions de probabilité à valeur réelle. Il existe de nombreuses sources discutant de cette propriété. Un bref peut être trouvé ici . Une discussion plus générale sur la motivation à utiliser la distribution gaussienne impliquant la plupart des arguments mentionnés jusqu'à présent peut être trouvée dans cet article du magazine Signal Processing.

Igor
la source
6
C'est à l'envers, si je comprends bien. Il s'agit de faire de l'hypothèse de normalité au sens strict du terme une hypothèse faible. Je ne vois pas ce que cela implique sur les données du monde réel. Vous pourriez aussi bien affirmer que les courbes sont généralement droites, car c'est l'hypothèse la plus simple que vous pouvez faire concernant la courbure. L'épistémologie ne limite pas l'ontologie! Si la référence que vous citez va au-delà, veuillez expliquer les arguments.
Nick Cox
3

En physique, c'est le CLT qui est généralement cité comme une raison pour avoir des erreurs normalement réparties dans de nombreuses mesures.

Les deux distributions d'erreurs les plus courantes en physique expérimentale sont normales et Poisson. Ce dernier est généralement rencontré dans les mesures de comptage, telles que la désintégration radioactive.

Une autre caractéristique intéressante de ces deux distributions est qu'une somme de variables aléatoires de Gaussian et Poisson appartient à Gaussian and Poisson.

Il existe plusieurs livres sur les statistiques des sciences expérimentales comme celui- ci: Gerhard Bohm, Günter Zech, Introduction to Statistics and Data Analysis for Physicists, ISBN 978-3-935702-41-6

Aksakal
la source
0

Le CLT est extrêmement utile pour faire des inférences sur des choses comme la moyenne de la population, car nous y arrivons en calculant une sorte de combinaison linéaire d'un ensemble de mesures individuelles. Cependant, lorsque nous essayons de faire des inférences sur les observations individuelles, en particulier les futures ( par exemple , les intervalles de prédiction), les écarts par rapport à la normalité sont beaucoup plus importants si nous nous intéressons aux queues de la distribution. Par exemple, si nous avons 50 observations, nous faisons une très grande extrapolation (et un acte de foi) lorsque nous disons quelque chose au sujet de la probabilité qu'une observation future soit d'au moins 3 écarts-types de la moyenne.

Emil Friedman
la source