Y a-t-il une explication pour expliquer pourquoi tant de phénomènes naturels suivent une distribution normale?

29

Je pense que c'est un sujet fascinant et je ne le comprends pas pleinement. Quelle loi de la physique fait que tant de phénomènes naturels ont une distribution normale? Il semblerait plus intuitif qu'ils auraient une distribution uniforme.

Il est si difficile pour moi de comprendre cela et je sens que je manque des informations. Quelqu'un peut-il m'aider avec une bonne explication ou me lier à un livre / vidéo / article?

yoyo_fun
la source
Vérifiez ça .
Antoni Parellada
7
Avez-vous une bonne raison de penser que votre prémisse est réellement le cas?
Glen_b -Reinstate Monica
4
En fait, la distribution normale peut ne pas être la distribution "dominante" dans la nature. Il existe de nombreux phénomènes et comportements qui sont extrêmement valorisés, très détaillés ou décrivent des fonctions de loi de puissance. Gabaix documente de nombreuses variantes économiques et financières de cette classe de distribution dans son article Power Laws in Economics: An Introduction , ungated here ... pages.stern.nyu.edu/~xgabaix/papers/pl-jep.pdf Shalizi, et Al. discutez de leur estimation empirique dans cet article Power-Law Distributions in Empirical Data , non gated here ... santafe.edu/media/workingpapers/07-12-0-049.pdf
Mike Hunter
Qui vous a dit que la distribution normale était de toute façon dominante?
shadowtalker
1
@DJohnson +1 pour les liens, mais il est important de souligner qu'une conclusion clé dans Clauset et al. papier est qu'il n'y a pas trop de distributions de lois de puissance empiriques qui sont fortement prises en charge! Citant les résultats, "Dans un seul cas - la distribution des fréquences d'occurrence des mots dans le texte anglais - la loi de puissance semble être vraiment convaincante en ce sens qu'elle est un excellent ajustement aux données et aucune des alternatives ne comporte poids."
Sycorax dit Réintégrer Monica le

Réponses:

31

Permettez-moi de commencer par nier la prémisse. Robert Geary n'a probablement pas exagéré le cas quand il a dit (en 1947) " ... la normalité est un mythe; il n'y a jamais eu et il n'y aura jamais de distribution normale. " -
la distribution normale est un modèle *, un approximation parfois plus ou moins utile.

* (dont, voir George Box , bien que je préfère la version sur mon profil).

Le fait que certains phénomènes soient à peu près normaux n'est pas une grande surprise, car des sommes d'effets indépendants [ou même pas trop fortement corrélés] devraient, s'il y en a beaucoup et aucun n'a une variance substantielle par rapport à la variance du somme du reste que nous pourrions voir la distribution a tendance à sembler plus normale.

n

Bien sûr, si les moyennes normalisées sont approximativement normales, les sommes normalisées le seront; c'est la raison du raisonnement «somme de nombreux effets». Donc, s'il y a beaucoup de petites contributions à la variation et qu'elles ne sont pas fortement corrélées, vous pourriez avoir tendance à le voir.

Le théorème de Berry-Esseen nous donne une déclaration à ce sujet (convergence vers des distributions normales) se produisant réellement avec des moyennes d'échantillonnage normalisées pour les données iid (dans des conditions légèrement plus strictes que pour le CLT, car il exige que le troisième moment absolu soit fini), comme ainsi que de nous dire à quelle vitesse cela se produit. Les versions ultérieures du théorème traitent des composantes non identiquement distribuées dans la somme , bien que les limites supérieures de l'écart par rapport à la normalité soient moins strictes.

Moins formellement, le comportement des convolutions avec des distributions raisonnablement agréables nous donne des raisons supplémentaires (bien que étroitement liées) de soupçonner que cela pourrait avoir tendance à être une approximation juste dans des échantillons finis dans de nombreux cas. La convolution agit comme une sorte d'opérateur de "maculage" que les personnes qui utilisent l'estimation de la densité du noyau à travers une variété de noyaux seront familières; une fois que vous avez standardisé le résultat (de sorte que la variance reste constante à chaque fois que vous effectuez une telle opération), il y a une nette progression vers des formes de collines de plus en plus symétriques lorsque vous lissez à plusieurs reprises (et peu importe si vous changez le noyau à chaque fois).

Terry Tao donne une belle discussion des versions du théorème de la limite centrale et le théorème Berry-Esseen ici , et le long du chemin mentionne une approche à une version non-indépendante du Berry-Esseen.

Il y a donc au moins une catégorie de situations où nous pouvons nous attendre à le voir, et des raisons formelles de penser que cela aura vraiment tendance à se produire dans ces situations. Cependant, au mieux, tout sentiment que le résultat de "sommes de nombreux effets" sera normal est une approximation. Dans de nombreux cas, il s'agit d'une approximation tout à fait raisonnable (et dans d'autres cas, même si l'approximation de la distribution n'est pas proche, certaines procédures qui supposent la normalité ne sont pas particulièrement sensibles à la distribution des valeurs individuelles, au moins dans les grands échantillons).

Il existe de nombreuses autres circonstances où les effets ne s'ajoutent pas et nous pouvons nous attendre à ce que d'autres choses se produisent; par exemple, dans de nombreuses données financières, les effets ont tendance à être multiplicatifs (les effets déplaceront les montants en pourcentage, comme les intérêts, l'inflation et les taux de change par exemple). Là, nous ne nous attendons pas à la normalité, mais nous pouvons parfois observer une approximation approximative de la normalité sur l'échelle logarithmique. Dans d'autres situations, ni l'un ni l'autre ne peuvent être appropriés, même dans un sens approximatif. Par exemple, les temps inter-événements ne seront généralement pas bien approximés par la normalité ou la normalité des journaux; il n'y a pas de «sommes» ni de «produits» d'effets à défendre ici. Il existe de nombreux autres phénomènes sur lesquels nous pouvons plaider pour un type particulier de "loi" dans des circonstances particulières.

Glen_b -Reinstate Monica
la source
12
+1. Votre argument commence à suggérer - tout à fait plausible, à mon avis - qu'il peut y avoir une réponse psychologique à la question, comme la pensée de groupe: quand tout le monde dans votre domaine voit des distributions normales, qui êtes-vous pour dire le contraire? Cela irait particulièrement pour les domaines de recherche où les procédures statistiques sont considérées comme des outils pour les piétons, nécessaires peut-être pour sanctifier un document à publier, mais sinon de peu de valeur ou d'intérêt inhérent.
whuber
2
Pour donner un exemple spécifique, lorsque Quetelet a inventé l'IMC (indice de masse corporelle), il l'a fait explicitement d'une manière qui a donné une quantité normalement distribuée. Nous en avons parlé ici: stats.stackexchange.com/questions/64171/…
Matt Krause
Il me semble que tout le monde essaie de contourner cette question plutôt que d'y répondre.
Digio
Geary était un statisticien, il n'est donc pas étonnant qu'il pense que la normalité est un mythe. S'il était physicien, il verrait les choses différemment.
Aksakal
Les commentaires ne sont pas pour une discussion approfondie; cette conversation a été déplacée vers le chat .
Glen_b -Reinstate Monica
20

Il y a un dicton célèbre de Gabriel Lippmann (physicien, lauréat du prix Nobel), raconté par Poincaré:

[La distribution normale] ne peut être obtenue par des déductions rigoureuses. Plusieurs de ses preuves putatives sont horribles [...]. Néanmoins, tout le monde y croit, comme M. Lippmann me l'a dit un jour, car les expérimentateurs l'imaginent comme un théorème mathématique, tandis que les mathématiciens l'imaginent comme un fait expérimental.

- Henri Poincaré, Le calcul des probabilités . 1896

[Cette loi] ne s'obtient pas par des déductions rigoureuses; plus d'une démonstration qu'on a voulu en donner est grossière [...]. Tout le monde y croit cependant, moi a dit un jour M. Lippmann, car les expérimentateurs s'imaginent que c'est un théorème de mathématiques, et les mathématiciens que c'est un fait expérimental.

Il semble que nous n'ayons pas cette citation dans notre fil de liste des citations statistiques, c'est pourquoi j'ai pensé qu'il serait bon de la publier ici.

amibe dit réintégrer Monica
la source
Un downvote? Quelqu'un ici déteste secrètement Poincaré?
amibe dit Réintégrer Monica le
Mes connaissances en physique se terminent par ce que j'ai appris au lycée, mais Gauss n'a-t-il pas étudié à l'origine la distribution dans le contexte des équations normales de la physique? C'était mon impression donnée par Wikipédia que les erreurs gaussiennes tombent naturellement dans un modèle de physique classique
shadowtalker
2
Nous devons davantage honorer Lippmann en tant qu'auteur de ce bon mot . Gabriel Lippmann a été lauréat du prix Nobel de physique. (M. signifie ici Monsieur, naturellement.)
Nick Cox
3
@ssdecontrol Si je me souviens bien, Gauss était intéressé par les erreurs normales d'observation , en particulier en astronomie et en géodésie, mais assez intelligent pour savoir que l'hypothèse était discutable. (Il utilisait également, par exemple, l'écart absolu médian par rapport à la médiane comme mesure résistante de la propagation en 1816.)
Nick Cox
Assez juste, @Nick. J'ai édité pour clarifier.
amibe dit Réintégrer Monica le
7

Quelle loi de la physique fait que tant de phénomènes naturels ont une distribution normale? Il semblerait plus intuitif qu'ils auraient une distribution uniforme.

La distribution normale est un lieu commun dans les sciences naturelles. L'explication habituelle est la raison pour laquelle cela se produit dans les erreurs de mesure grâce à une certaine forme de grand nombre ou au raisonnement du théorème central limite (CLT), qui se passe généralement comme suit: "puisque les résultats de l'expérience sont affectés par un nombre infiniment grand de perturbations provenant de sources non liées CLT suggère que les erreurs seraient normalement distribuées ". Par exemple, voici un extrait de Statistical Methods in Data Analysis de WJ Metzger:

La plupart de ce que nous mesurons est en fait la somme de nombreux VR. Par exemple, vous mesurez la longueur d'une table avec une règle. La longueur que vous mesurez dépend de nombreux petits effets: parallaxe optique, calibrage de la règle, température, main tremblante, etc. Un compteur numérique a du bruit électronique à divers endroits de ses circuits. Ainsi, ce que vous mesurez n'est pas seulement ce que vous voulez mesurer, mais y a ajouté un grand nombre de petites contributions (espérons-le). Si ce nombre de petites contributions est important, le CLT nous indique que leur somme totale est distribuée gaussienne. C'est souvent le cas et c'est la raison pour laquelle les fonctions de résolution sont généralement gaussiennes.

Cependant, comme vous devez le savoir, cela ne signifie pas que chaque distribution sera normale, bien sûr. Par exemple, la distribution de Poisson est aussi courante en physique lorsqu'il s'agit de processus de comptage. En spectroscopie, la distribution de Cauchy (alias Breit Wigner) est utilisée pour décrire la forme des spectres de rayonnement, etc.

J'ai réalisé cela après avoir écrit: les trois distributions mentionnées jusqu'ici (gaussienne, Poisson, Cauchy) sont des distributions stables , Poisson étant discrètement stable . Maintenant que j'y ai réfléchi, il me semble qu'une qualité importante d'une distribution lui fera survivre aux agrégations: si vous ajoutez un tas de nombres de Poisson, la somme est un Poisson. Cela peut "expliquer" (dans un certain sens) pourquoi c'est si omniprésent.

Dans les sciences non naturelles, vous devez être très prudent en appliquant une distribution normale (ou toute autre) pour diverses raisons. En particulier, les corrélations et les dépendances sont un problème, car elles peuvent briser les hypothèses de CLT. Par exemple, en finance, il est bien connu que de nombreuses séries ressemblent à la normale mais ont des queues beaucoup plus lourdes , ce qui est un gros problème dans la gestion des risques.

Enfin, il y a des raisons plus solides dans les sciences naturelles pour avoir une distribution normale que le genre de raisonnement "agitant la main" que j'ai cité plus tôt. Considérez, le mouvement brownien. Si les chocs sont vraiment indépendants et infinitésimaux, alors la distribution d'un chemin observable aura inévitablement une distribution normale en raison de la CLT, voir par exemple l'équation (10) dans le célèbre ouvrage d'Einstein " ENQUÊTES SUR LA THÉORIE DU MOUVEMENT BROWNIAN ". Il n'a même pas pris la peine de l'appeler par son nom actuel "gaussien" ou "normal".

ΔxΔpΔxΔp

Par conséquent, ne soyez pas surpris d'obtenir des réactions très différentes à l'utilisation de la distribution gaussienne de la part de chercheurs dans différents domaines. Dans certains domaines comme la physique, certains phénomènes devraient être liés naturellement à la distribution gaussienne basée sur une théorie très solide appuyée par une énorme quantité d'observations. Dans d'autres domaines, la distribution normale est utilisée pour sa commodité technique, ses propriétés mathématiques pratiques ou d'autres raisons discutables.

Aksakal
la source
1
+1. La citation est raisonnable, mais on peut noter que la longueur mesurée ne peut pas être négative (c'est-à-dire qu'elle est limitée) et ne peut donc pas vraiment suivre une distribution normale. C'est toujours une approximation.
amibe dit Réintégrer Monica le
Sciences contre nature? Vous voulez dire comme les expériences inconvenantes du Dr Frankenstein? ;-)
Sycorax dit Réintégrer Monica le
1
@ user777, il est lauréat du prix Nobel Landau de blague : « Les sciences peuvent être divisées en trois types: naturels, non naturels et antinaturel »
Aksakal
@Aksakal: Je pense que ce lien particulier a tort; Landau a déclaré que les sciences sont divisées en "естественные, неестественные и противоестественные" (au lieu de "сверхъестественные"). Je ne sais pas comment le traduire cependant.
Amoeba dit Reinstate Monica
@amoeba, je traduis "неестественные" par "contre nature". "сверхъестественные" est "surnaturel", pense-je. Peut-être que les Russes peuvent me corriger.
Aksakal
2

il y a énormément d'explications trop compliquées ici ...

Une bonne façon dont il était lié à moi est la suivante:

  1. Lancez un seul dé, et vous avez une probabilité égale de lancer chaque nombre (1-6), et donc, le PDF est constant.

  2. Lancez deux dés et additionnez les résultats ensemble, et le PDF n'est plus constant. C'est parce qu'il y a 36 combinaisons, et la plage sommative est de 2 à 12. La probabilité d'un 2 est une combinaison singulière unique de 1 + 1. La probabilité d'un 12 est également unique en ce qu'elle ne peut se produire que dans une seule combinaison d'un 6 + 6. Maintenant, en regardant 7, il existe plusieurs combinaisons, à savoir 3 + 4, 5 + 2 et 6 + 1 ( et leurs permutations inverses). Comme vous travaillez loin de la valeur moyenne (c'est-à-dire 7), il y a moins de combinaisons pour 6 et 8, etc. jusqu'à ce que vous arriviez aux combinaisons singulières de 2 et 12. Cet exemple ne donne pas une distribution normale claire, mais plus vous mourrez vous ajoutez, et plus vous prenez d'échantillons, plus le résultat tendra vers une distribution normale.

  3. Par conséquent, lorsque vous additionnez une plage de variables indépendantes sujettes à des variations aléatoires (qui peuvent chacune avoir leurs propres fichiers PDF), plus la sortie résultante tendra à la normalité. Cela, en termes de Six Sigma, nous donne ce que nous appelons la «voix du processus». C'est ce que nous appelons le résultat de la «variation de cause commune» d'un système, et donc, si la sortie tend vers la normalité, alors nous appelons ce système «dans le contrôle statistique des processus». Lorsque la sortie n'est pas normale (asymétrique ou décalée), nous disons que le système est soumis à une `` variation de cause spéciale '' dans laquelle il y a eu un `` signal '' qui a biaisé le résultat d'une manière ou d'une autre.

J'espère que ça t'as aidé.

davidwm1968
la source
1

Quelle loi de la physique fait que tant de phénomènes naturels ont une distribution normale?

Aucune idée. D'un autre côté, je ne sais pas non plus si c'est vrai, ni même ce que «tant» signifie.

Cependant, en réorganisant un peu le problème, il y a de bonnes raisons de supposer (c'est-à-dire de modéliser ) une quantité continue que vous croyez avoir une moyenne et une variance fixes avec une distribution normale. En effet, la distribution normale est le résultat de la maximisation de l'entropie soumise à ces contraintes de moment. Puisque, en gros, l'entropie est une mesure de l'incertitude, ce qui fait du Normal le choix le plus non contraignant ou le plus incertain de la forme distributionnelle.

Maintenant, l'idée que l'on devrait choisir une distribution en maximisant son entropie sous réserve de contraintes connues a vraiment un certain support physique en termes de nombre de façons possibles de les remplir. Jaynes sur la mécanique statistique est la référence standard ici.

Notez que bien que l'entropie maximale motive les distributions normales dans ce cas, différentes sortes de contraintes peuvent conduire à différentes familles de distribution, par exemple l'exponentielle familière, le poisson, le binôme, etc.

Sivia et Skilling 2005 ch.5 a une discussion intuitive.

conjugateprior
la source