Quels sont les théorèmes qui pourraient expliquer (c.-à-d. De manière généralisée) pourquoi les données du monde réel devraient normalement être distribuées?
J'en connais deux:
Le théorème de la limite centrale (bien sûr), qui nous dit que la somme de plusieurs variables aléatoires indépendantes avec moyenne et variance (même lorsqu'elles ne sont pas distribuées de manière identique) tend à être normalement distribuée
Soit X et Y des RV continus indépendants avec des densités différenciables telles que leur densité conjointe ne dépend que de + . Alors X et Y sont normaux.
(cross-post de mathexchange )
Edit: Pour clarifier, je ne prétends pas combien de données du monde réel sont normalement distribuées. Je pose simplement des questions sur les théorèmes qui peuvent donner un aperçu du type de processus pouvant conduire à des données normalement distribuées.
Réponses:
De nombreuses distributions limites de VR discrets (poisson, binôme, etc.) sont approximativement normales. Pensez au plinko. Dans presque tous les cas où la normalité approximative est vérifiée, la normalité ne se déclenche que pour les échantillons de grande taille.
La plupart des données réelles ne sont PAS normalement distribuées. Un article de Micceri (1989) intitulé " La licorne, la courbe normale et d'autres créatures improbables " a examiné 440 réalisations à grande échelle et mesures psychométriques. Il a trouvé beaucoup de variabilité dans les distributions par rapport à leurs moments et peu de preuves de normalité (même approximative).
Dans un article de Steven Stigler de 1977 intitulé " Les estimateurs robustes travaillent avec des données réelles ", il a utilisé 24 ensembles de données collectées à partir de tentatives célèbres du XVIIIe siècle pour mesurer la distance de la terre au soleil et de tentatives du 19e siècle pour mesurer la vitesse de la lumière. Il a signalé une asymétrie et une kurtose de l'échantillon dans le tableau 3. Les données sont très détaillées.
En statistiques, nous supposons souvent la normalité car cela rend la probabilité maximale (ou une autre méthode) pratique. Ce que les deux articles cités ci-dessus montrent cependant, c'est que l'hypothèse est souvent ténue. C'est pourquoi les études de robustesse sont utiles.
la source
Il existe également une justification théorique de l'information pour l'utilisation de la distribution normale. Étant donné la moyenne et la variance, la distribution normale a une entropie maximale parmi toutes les distributions de probabilité à valeur réelle. Il existe de nombreuses sources discutant de cette propriété. Un bref peut être trouvé ici . Une discussion plus générale sur la motivation à utiliser la distribution gaussienne impliquant la plupart des arguments mentionnés jusqu'à présent peut être trouvée dans cet article du magazine Signal Processing.
la source
En physique, c'est le CLT qui est généralement cité comme une raison pour avoir des erreurs normalement réparties dans de nombreuses mesures.
Les deux distributions d'erreurs les plus courantes en physique expérimentale sont normales et Poisson. Ce dernier est généralement rencontré dans les mesures de comptage, telles que la désintégration radioactive.
Une autre caractéristique intéressante de ces deux distributions est qu'une somme de variables aléatoires de Gaussian et Poisson appartient à Gaussian and Poisson.
Il existe plusieurs livres sur les statistiques des sciences expérimentales comme celui- ci: Gerhard Bohm, Günter Zech, Introduction to Statistics and Data Analysis for Physicists, ISBN 978-3-935702-41-6
la source
Le CLT est extrêmement utile pour faire des inférences sur des choses comme la moyenne de la population, car nous y arrivons en calculant une sorte de combinaison linéaire d'un ensemble de mesures individuelles. Cependant, lorsque nous essayons de faire des inférences sur les observations individuelles, en particulier les futures ( par exemple , les intervalles de prédiction), les écarts par rapport à la normalité sont beaucoup plus importants si nous nous intéressons aux queues de la distribution. Par exemple, si nous avons 50 observations, nous faisons une très grande extrapolation (et un acte de foi) lorsque nous disons quelque chose au sujet de la probabilité qu'une observation future soit d'au moins 3 écarts-types de la moyenne.
la source