Quelle est l'importance de la fonction

19

Dans ma classe de calcul, nous avons rencontré la fonction , ou la "courbe en cloche", et on m'a dit qu'elle avait des applications fréquentes en statistique.e-X2

Par curiosité, je veux demander: la fonction vraiment importante en statistique? Si oui, qu'est-ce qui rend e - x 2 utile et quelles sont ses applications?e-X2e-X2

Je n'ai pas pu trouver beaucoup d'informations sur la fonction sur Internet, mais après avoir fait quelques recherches, j'ai trouvé un lien entre les courbes en cloche en général et quelque chose appelé distribution normale . Une page Wikipédia relie ces types de fonctions à l'application de statistiques, avec une mise en évidence par moi, qui dit:

"La distribution normale est considérée comme la distribution de probabilité la plus importante dans les statistiques. Il y a plusieurs raisons à cela: 1 Premièrement, la distribution normale découle du théorème de la limite centrale, qui stipule que dans des conditions douces, la somme d'un grand nombre de variables aléatoires tirées de la même distribution est distribuée approximativement normalement, quelle que soit la forme de la distribution d'origine . "

Donc, si je rassemble une grande quantité de données provenant d'une sorte d'enquête ou similaire, elles pourraient être réparties également entre une fonction comme ? La fonction est symétrique, tout comme sa symétrie c'est-à-dire son utilité pour une distribution normale, qu'est-ce qui la rend si utile en statistique? Je ne fais que spéculer.ex2

En général, qu'est-ce qui rend utile en statistique? Si la distribution normale est la seule zone, alors qu'est-ce qui rend e - x 2 unique ou spécifiquement utile parmi les autres fonctions de type gaussien dans la distribution normale?e-X2e-X2

Zolani13
la source
Eh bien pour commencer, il faut lire "signifie" pas "somme".
Tristan
2
La somme aussi. Après tout, ce n'est que la moyenne multipliée par le nombre d'échantillons.
Erik
1
La citation montre que les mots clés d'une recherche incluent "distribution normale". L'exécution de cette recherche ici trouve plus de 600 threads - une moyenne par jour depuis le démarrage de ce site. Une courte période de lecture de ces résultats aidera rapidement quiconque à apprécier le rôle de la "courbe en cloche" dans les statistiques.
whuber
4
Du fil plus voté concernant les distributions normales : "Tout le monde croit en la loi exponentielle des erreurs [c'est-à-dire la distribution normale]: les expérimentateurs, parce qu'ils pensent que cela peut être prouvé par les mathématiques; et les mathématiciens, parce qu'ils croient qu'il a été établie par observation. "
whuber
Voir les réponses à ma question "quelles sont les caractérisations les plus surprenantes de la distribution gaussienne" stats.stackexchange.com/questions/4364/…
robin girard

Réponses:

12

La raison pour laquelle cette fonction est importante est en effet la distribution normale et son compagnon étroitement lié, le théorème de la limite centrale (nous avons ici de bonnes explications du CLT dans d' autres questions ).

En statistiques, le CLT peut généralement être utilisé pour calculer des probabilités approximativement, en faisant des déclarations comme "nous sommes sûrs à 95% que ..." possible (la signification de "95% confiant" est souvent mal comprise, mais c'est une autre question).

La fonction est (une version à l'échelle de) la fonction de densité de la distribution normale. Si une quantité aléatoire peut être modélisée en utilisant la distribution normale, cette fonction décrit la probabilité de différentes valeurs possibles de ladite quantité. Les résultats dans les régions à forte densité sont plus probables que les résultats dans les régions à faible densité.exp(-(X-μ)22σ2)

et σ sont des paramètres qui déterminent l'emplacement et l'échelle de la fonction de densité. Il est symétrique par rapport à μ , donc changer μ signifie que vous déplacez la fonction vers la droite ou vers la gauche. σ détermine la valeur de la fonction de densité à son maximum ( x = μ ) et la vitesse à laquelle elle passe à 0 lorsque xμσμμσX=μX s'éloigne de . En ce sens, la modification de σ modifie l'échelle de la fonction.μσ

Pour le choix particulier etμ=0 la densité est (proportionnelle à)σ=1/2 . Ce n'est pas un choix particulièrement intéressant de ces paramètres, mais il a l'avantage de produire une fonction de densité qui semble légèrement plus simple que tous les autres.e-X2

Par contre, on peut passer de à toute autre densité normale par le changement de variables x = u - μe-X2. La raison pour laquelle votre manuel dit quee-x2, et nonexp(-(x-μ)2X=u-μ2σe-X2, est une fonction très importante est quee-x2est plus simple à écrire.exp(-(X-μ)22σ2)e-X2

MånsT
la source
1
(+1) Première phrase de l'avant-dernier paragraphe: je pourrais dire est proportionnelle à la place de l' est .
cardinal
@cardinal: Merci, vous avez tout à fait raison! J'ai édité la réponse.
MånsT
1
12πσ22πσ2
3

exp(-X2)exp(-X2)

Et la distribution normale est importante parce que ("dans des conditions de régularité modérées") la somme de nombreuses variables aléatoires indépendantes et identiquement distribuées approche de la normale, quand "beaucoup" approche de l'infini.

Tout n'est pas normalement distribué. Par exemple, les résultats de votre enquête peuvent ne pas l'être, du moins si les réponses ne sont même pas sur l'échelle continue mais quelque chose comme des entiers 1 à 5. Mais la moyenne des résultats est normalement distribuée sur des échantillonnages répétés, car la moyenne n'est qu'une somme échelonnée (normalisée) et les réponses individuelles sont indépendantes les unes des autres. En supposant que l'échantillon est suffisamment grand, bien sûr, car à proprement parler, la normalité n'apparaît que lorsque la taille de l'échantillon devient infinie.

Comme vous le voyez dans l'exemple, la distribution normale peut apparaître à la suite du processus d'estimation ou de modélisation, même lorsque les données ne sont pas normalement distribuées. Par conséquent, les distributions normales sont partout dans les statistiques. Dans les statistiques bayésiennes, de nombreuses distributions postérieures des paramètres sont approximativement normales, ou peuvent être supposées l'être.

scellus
la source
e-X2
Ils ne sont pas synonymes, merci de l'avoir signalé. (Mon intention n'était pas d'être précise, juste compréhensible pour un non-statisticien. Il y a déjà une bonne réponse précise.)
scellus
-1

n. Cela permet de déduire facilement la moyenne d'une distribution basée sur un échantillon aléatoire en testant des hypothèses01/nn

Michael R. Chernick
la source
Une salle de discussion a été créée pour les commentaires sur cette question à chat.stackexchange.com/rooms/3720/… . J'ai supprimé tous les (50!) Commentaires et verrouillé ce message pour éviter de nouveaux abus du mécanisme de commentaires.
whuber