Pourquoi est-il souvent supposé une distribution gaussienne?

13

Citant un article de Wikipédia sur l' estimation des paramètres pour un classificateur Bayes naïf : "une hypothèse typique est que les valeurs continues associées à chaque classe sont distribuées selon une distribution gaussienne."

Je comprends qu'une distribution gaussienne est pratique pour des raisons analytiques. Cependant, y a-t-il une autre raison réelle de faire cette supposition? Que se passe-t-il si la population se compose de deux sous-populations (personnes intelligentes / muettes, grosses / petites pommes)?

lmsasu
la source
5
Peut-être à cause du théorème de la limite centrale, les distributions gaussiennes correspondent à de nombreuses mesures des phénomènes physiques, mais pas à toutes. Avec des sous-populations, on peut obtenir mélange gaussiennes.
Dilip Sarwate
1
La même section (je suppose que vous consultez l'article de Naive Bayes) souligne que le binning est probablement une meilleure idée si vous ne connaissez pas la distribution. Quelqu'un devrait probablement éditer l'article de wikipedia pour qu'il soit plus clair que l'on ne devrait supposer le gaussien que s'il peut expliquer pourquoi il est gaussien (par exemple, tracer les données, ou s'il suit le modèle additif du CLT).
rm999

Réponses:

6

Du moins pour moi, l'hypothèse de normalité découle de deux raisons (très puissantes):

  1. Le théorème de la limite centrale.

  2. La distribution gaussienne est une distribution d'entropie maximale (par rapport à la version continue de l'entropie de Shannon).

Je pense que vous êtes conscient du premier point: si votre échantillon est la somme de nombreux processus, alors tant que certaines conditions douces sont satisfaites, la distribution est à peu près gaussienne (il y a des généralisations du CLT où vous n'en avez en fait pas doivent supposer que les valeurs récurrentes de la somme sont distribuées de manière identique, voir, par exemple, le CLT de Lyapunov).

Le deuxième point est celui qui, pour certaines personnes (en particulier les physiciens), a plus de sens: étant donné les premier et deuxième moments d'une distribution, la distribution que moins d'informations suppose (c'est-à-dire la plus conservatrice) par rapport à la mesure d'entropie continue de Shannon (qui est quelque peu arbitraire sur le cas continu, mais, au moins pour moi, totalement objectif dans le cas discret, mais c'est une autre histoire), est la distribution gaussienne. Il s'agit d'une forme du soi-disant «principe d'entropie maximale», qui n'est pas si répandue car l'utilisation réelle de la forme de l'entropie est quelque peu arbitraire (voir cet article Wikipedia pour plus d'informations sur cette mesure ).

μΣ

PD: Je dois ajouter au principe d'entropie maximale que, selon cet article , si vous connaissez la plage de variation de votre variable, vous devez faire des ajustements à la distribution que vous obtenez par le principe d'entropie maximale.

Néstor
la source
3

Ma réponse est d'accord avec le premier répondant. Le théorème de la limite centrale vous dit que si votre statistique est une somme ou une moyenne, elle sera approximativement normale dans certaines conditions techniques, quelle que soit la distribution des échantillons individuels. Mais vous avez raison de dire que parfois les gens vont trop loin juste parce que cela semble convenable. Si votre statistique est un ratio et que le dénominateur peut être nul ou proche, le ratio sera trop étroit pour la normale. Gosset a constaté que même lorsque vous échantillonnez à partir d'une distribution normale une moyenne normalisée où l'écart-type de l'échantillon est utilisé pour la constante de normalisation, la distribution est la distribution t avec n-1 degrés de liberté lorsque n est la taille de l'échantillon. Dans ses expériences sur le terrain à la brasserie Guiness, il a des tailles d'échantillon qui pourraient être de l'ordre de 5 à 10. Dans ces cas, la distribution t est similaire à la distribution normale standard en ce qu'elle est symétrique par rapport à 0, mais elle a des queues beaucoup plus lourdes. Notez que la distribution t converge vers la normale standard lorsque n devient grand. Dans de nombreux cas, la distribution que vous avez peut être bimodale car il s'agit d'un mélange de deux populations. Parfois, ces distributions peuvent être ajustées comme un mélange de distributions normales. Mais ils ne ressemblent certainement pas à une distribution normale. Si vous regardez un manuel de statistiques de base, vous trouverez de nombreuses distributions paramétriques continues et discrètes qui posent souvent des problèmes d'inférence. Pour les données discrètes, nous avons le binôme binomial, Poisson, géométrique, hypergéométrique et négatif pour n'en nommer que quelques-uns. Des exemples continus incluent le chi carré, lognormal, Cauchy, exponentiel négatif, Weibull et Gumbel.

Michael R. Chernick
la source
2

L'utilisation du CLT pour justifier l'utilisation de la distribution gaussienne est une erreur courante car le CLT est appliqué à la moyenne de l'échantillon, pas aux observations individuelles. Par conséquent, l'augmentation de la taille de votre échantillon ne signifie pas que l'échantillon est plus proche de la normalité.

La distribution gaussienne est couramment utilisée car:

  1. L'estimation du maximum de vraisemblance est simple.
  2. L'inférence bayésienne est simple (en utilisant des antérieurs conjugués ou des antérieurs de type Jeffreys).
  3. Il est implémenté dans la plupart des packages numériques.
  4. Il y a beaucoup de théorie sur cette distribution en termes de tests d'hypothèses.
  5. Manque de connaissances sur les autres options (plus flexible). ...

Bien sûr, la meilleure option est d'utiliser une distribution qui prend en compte les caractéristiques de votre contexte, mais cela peut être difficile. Cependant, c'est quelque chose que les gens devraient faire

"Tout devrait être aussi simple que possible, mais pas plus simple." (Albert Einstein)

J'espère que ça aide.

Meilleurs vœux.

Tony
la source
Pourquoi le downvote? quel contre-argument est pour cette explication?
lmsasu
4
La croyance selon laquelle «l'utilisation du CLT pour justifier l'utilisation de la distribution gaussienne est une erreur courante parce que le CLT est appliqué à la moyenne de l'échantillon» est elle-même une erreur. Par exemple, les électrons d'un conducteur se déplacent au hasard. La petite charge sur chaque électron contribue à une tension de bruit nette (appelée bruit thermique) qui peut être mesurée aux bornes du conducteur. Chaque contribution est petite, il y a beaucoup d'électrons, et donc via le CLT, le bruit est modélisé comme un processus aléatoire gaussien. Ce modèle a été validé de façon croisée dans de nombreuses études expérimentales.
Dilip Sarwate
1
Ce premier paragraphe prête à confusion et semble hors sujet. Lors de l'application du CLT, nous disons souvent qu'une distribution est gaussienne car chaque observation individuelle est la somme / moyenne de nombreux processus. Si le premier paragraphe était supprimé, je pense que ce serait une bonne réponse.
rm999
1
@ rm999 "Si le premier paragraphe était supprimé, je pense que ce serait une bonne réponse". En fait, le premier paragraphe est au cœur de la réponse, car le reste souligne simplement comment le modèle gaussien est utile analytiquement - ce que le PO comprend déjà - et ne répond pas à la question posée.
Dilip Sarwate
@Dilip: (+1) Le noyau d'une très bonne réponse est présent dans votre premier commentaire. Veuillez envisager de l'étendre dans un article séparé.
Cardinal