Existe-t-il des exemples d'une variable normalement distribuée qui n'est * pas * en raison du théorème de la limite centrale?

11

La distribution normale ne semble pas intuitive jusqu'à ce que vous appreniez le CLT, ce qui explique pourquoi il est si répandu dans la vie réelle. Mais apparaît-elle jamais comme la distribution "naturelle" d'une certaine quantité?

gardenhead
la source
4
La théorie physique de la diffusion, dans la mesure où elle est applicable à tout système, prédit des distributions normales de quantités (comme la température ou la concentration) qui proviennent d'un point. En effet, un grand nombre de systèmes sont diffusifs (prix des options, transport de particules dans des milieux homogènes, etc.), suggérant que les exemples sont abondants en supposant que l'on n'est pas naïf au point de supposer qu'une distribution normale doit tenir exactement à des valeurs irréalistes grandes ou petites - ce serait une incompréhension de toute théorie physique.
whuber
2
La distribution normale ne semble pas intuitive jusqu'à ce que vous appreniez qu'elle maximise l'entropie sous la contrainte d'une variance fixe.
leonbloy

Réponses:

11

Dans une certaine mesure, je pense que cela peut être une question philosophique autant que statistique.

De nombreux phénomènes naturels se répartissent approximativement normalement. On peut se demander si la cause sous - jacente de cela peut être quelque chose comme le CLT:

  • La taille des personnes peut être considérée comme la somme de nombreuses causes plus petites (peut-être indépendantes, probablement réparties de manière identique): longueurs de divers os, ou résultats de diverses expressions génétiques, ou résultats de nombreuses influences alimentaires, ou une combinaison de tous les éléments ci-dessus .

  • Les scores aux tests peuvent être considérés comme la somme des scores de nombreuses questions de test individuelles (éventuellement réparties de manière identique, peu probable entièrement indépendantes).

  • Distance parcourue par une particule dans une dimension à la suite d' un mouvement brownien dans un fluide: le mouvement peut être considéré de manière abstraite comme une marche aléatoire résultant de coups aléatoires d'IID par des molécules.

Un exemple où le CLT n'est pas nécessairement impliqué est la dispersion des tirs autour d'un oeil de boeuf: la distance de l'oeil de boeuf peut être modélisée comme une distribution de Rayleigh (proportionnelle à la racine carrée du chi carré avec 2 DF) et l'angle dans le sens antihoraire de l'axe horizontal positif peut être modélisé comme uniforme surEnsuite, après avoir changé de coordonnées polaires en coordonnées rectangulaires, les distances dans les directions horizontale (x) et verticale (y) se révèlent être des normales bivariées non corrélées. [C'est l'essence de la transformation Box-Muller, que vous pouvez google.] Cependant, les coordonnées x et y normales peuvent être considérées comme la somme de nombreuses petites inexactitudes dans le ciblage, ce qui pourrait justifier un mécanisme lié au CLT en arrière-plan .(0,2π).

Dans un sens historique, l'utilisation répandue de distributions normales (gaussiennes) au lieu de distributions double exponentielles (Laplace) pour modéliser les observations astronomiques peut être en partie due au CLT. Au début des erreurs de modélisation de telles observations, il y a eu un débat entre Gauss et Laplace , chacun plaidant pour sa propre distribution préférée. Pour diverses raisons, le modèle normal a gagné. On peut soutenir qu'une des raisons du succès éventuel de la distribution normale était la commodité mathématique basée sur les limites normales de la CLT. Cela semble être vrai même quand on ne sait pas quelle famille de distributions offre le meilleur ajustement. (Même maintenant, il y a encore des astronomes qui estiment que la "meilleure observation"faites par un astronome méticuleux et respecté est forcément de meilleure valeur que la moyenne de nombreuses observations faites par des observateurs sans doute moins doués. En fait, ils ne préféreraient aucune intervention des statisticiens.)

BruceET
la source
Oui. Correction de fautes de frappe. Merci d'avoir remarqué celui-ci. La même erreur dans les «résultats des tests» a également été corrigée.
BruceET
-3

De nombreuses variables naturelles sont normalement distribuées. Hauteurs des humains? Taille des colonies animales?

Content
la source
1
@Happy En fait, aucun des exemples donnés ici n'est normalement distribué car le support de la distribution normale est -infini à + infini et les exemples donnés ne peuvent jamais être zéro ou moins. Dans chaque cas, la distribution normale peut être une approximation utile, mais pas si vous êtes intéressé par la queue de la distribution.
JeremyC
2
La taille humaine est le résultat de la somme de gènes (approximativement) indépendants, donc ils sont en fait dus au CLT.
gardenhead
2
@ArtemMavrin: obtenir une hauteur négative serait quelque chose comme 8+ écarts-types. Si l'on s'oppose à ce qu'une approximation normale ne soit pas valide car elle place une masse de probabilité nulle au-delà de 8 sd, vous pourriez aussi bien vous plaindre qu'une valeur vraiment normalement distribuée est irrationnelle avec la probabilité 1, mais toutes nos mesures sont des nombres rationnels.
Cliff AB
1
@ArtemMavrin: eh bien, si la question est une chose exactement distribuée normalement, cette réponse est simple: non. Pas même rnorm(1). Idem pour toutes les distributions, autres que multinomiales.
Cliff AB
2
@gardenhead a lu l'énoncé du théorème de la limite centrale et note où il ne correspond pas à ce que vous avez dit (le nombre de gènes est fini tandis que CLT concerne la distribution limite d'une somme standardisée comme . (Par en passant, il y a un autre théorème qui dit qu'une somme finie de iid variables non normales ne peut pas être normale; ce théorème ne contredit pas le CLT réel!)n
Glen_b -Reinstate Monica