Dans ma classe de calcul, nous avons rencontré la fonction , ou la "courbe en cloche", et on m'a dit qu'elle avait des applications fréquentes en statistique.
Par curiosité, je veux demander: la fonction vraiment importante en statistique? Si oui, qu'est-ce qui rend e - x 2 utile et quelles sont ses applications?
Je n'ai pas pu trouver beaucoup d'informations sur la fonction sur Internet, mais après avoir fait quelques recherches, j'ai trouvé un lien entre les courbes en cloche en général et quelque chose appelé distribution normale . Une page Wikipédia relie ces types de fonctions à l'application de statistiques, avec une mise en évidence par moi, qui dit:
"La distribution normale est considérée comme la distribution de probabilité la plus importante dans les statistiques. Il y a plusieurs raisons à cela: 1 Premièrement, la distribution normale découle du théorème de la limite centrale, qui stipule que dans des conditions douces, la somme d'un grand nombre de variables aléatoires tirées de la même distribution est distribuée approximativement normalement, quelle que soit la forme de la distribution d'origine . "
Donc, si je rassemble une grande quantité de données provenant d'une sorte d'enquête ou similaire, elles pourraient être réparties également entre une fonction comme ? La fonction est symétrique, tout comme sa symétrie c'est-à-dire son utilité pour une distribution normale, qu'est-ce qui la rend si utile en statistique? Je ne fais que spéculer.
En général, qu'est-ce qui rend utile en statistique? Si la distribution normale est la seule zone, alors qu'est-ce qui rend e - x 2 unique ou spécifiquement utile parmi les autres fonctions de type gaussien dans la distribution normale?
la source
Réponses:
La raison pour laquelle cette fonction est importante est en effet la distribution normale et son compagnon étroitement lié, le théorème de la limite centrale (nous avons ici de bonnes explications du CLT dans d' autres questions ).
En statistiques, le CLT peut généralement être utilisé pour calculer des probabilités approximativement, en faisant des déclarations comme "nous sommes sûrs à 95% que ..." possible (la signification de "95% confiant" est souvent mal comprise, mais c'est une autre question).
La fonction est (une version à l'échelle de) la fonction de densité de la distribution normale. Si une quantité aléatoire peut être modélisée en utilisant la distribution normale, cette fonction décrit la probabilité de différentes valeurs possibles de ladite quantité. Les résultats dans les régions à forte densité sont plus probables que les résultats dans les régions à faible densité.exp( - ( x - μ )22 σ2)
et σ sont des paramètres qui déterminent l'emplacement et l'échelle de la fonction de densité. Il est symétrique par rapport à μ , donc changer μ signifie que vous déplacez la fonction vers la droite ou vers la gauche. σ détermine la valeur de la fonction de densité à son maximum ( x = μ ) et la vitesse à laquelle elle passe à 0 lorsque xμ σ μ μ σ x = μ X s'éloigne de . En ce sens, la modification de σ modifie l'échelle de la fonction.μ σ
Pour le choix particulier etμ = 0 la densité est (proportionnelle à)σ= Une / deux-√ . Ce n'est pas un choix particulièrement intéressant de ces paramètres, mais il a l'avantage de produire une fonction de densité qui semble légèrement plus simple que tous les autres.e- x2
Par contre, on peut passer de à toute autre densité normale par le changement de variables x = u - μe- x2 . La raison pour laquelle votre manuel dit quee-x2, et nonexp(-(x-μ)2x = u - μ2√σ e- x2 , est une fonction très importante est quee-x2est plus simple à écrire.exp( - ( x - μ )22 σ2) e- x2
la source
Et la distribution normale est importante parce que ("dans des conditions de régularité modérées") la somme de nombreuses variables aléatoires indépendantes et identiquement distribuées approche de la normale, quand "beaucoup" approche de l'infini.
Tout n'est pas normalement distribué. Par exemple, les résultats de votre enquête peuvent ne pas l'être, du moins si les réponses ne sont même pas sur l'échelle continue mais quelque chose comme des entiers 1 à 5. Mais la moyenne des résultats est normalement distribuée sur des échantillonnages répétés, car la moyenne n'est qu'une somme échelonnée (normalisée) et les réponses individuelles sont indépendantes les unes des autres. En supposant que l'échantillon est suffisamment grand, bien sûr, car à proprement parler, la normalité n'apparaît que lorsque la taille de l'échantillon devient infinie.
Comme vous le voyez dans l'exemple, la distribution normale peut apparaître à la suite du processus d'estimation ou de modélisation, même lorsque les données ne sont pas normalement distribuées. Par conséquent, les distributions normales sont partout dans les statistiques. Dans les statistiques bayésiennes, de nombreuses distributions postérieures des paramètres sont approximativement normales, ou peuvent être supposées l'être.
la source
la source