Citant un article de Wikipédia sur l' estimation des paramètres pour un classificateur Bayes naïf : "une hypothèse typique est que les valeurs continues associées à chaque classe sont distribuées selon une distribution gaussienne."
Je comprends qu'une distribution gaussienne est pratique pour des raisons analytiques. Cependant, y a-t-il une autre raison réelle de faire cette supposition? Que se passe-t-il si la population se compose de deux sous-populations (personnes intelligentes / muettes, grosses / petites pommes)?
normal-distribution
lmsasu
la source
la source
Réponses:
Du moins pour moi, l'hypothèse de normalité découle de deux raisons (très puissantes):
Le théorème de la limite centrale.
La distribution gaussienne est une distribution d'entropie maximale (par rapport à la version continue de l'entropie de Shannon).
Je pense que vous êtes conscient du premier point: si votre échantillon est la somme de nombreux processus, alors tant que certaines conditions douces sont satisfaites, la distribution est à peu près gaussienne (il y a des généralisations du CLT où vous n'en avez en fait pas doivent supposer que les valeurs récurrentes de la somme sont distribuées de manière identique, voir, par exemple, le CLT de Lyapunov).
Le deuxième point est celui qui, pour certaines personnes (en particulier les physiciens), a plus de sens: étant donné les premier et deuxième moments d'une distribution, la distribution que moins d'informations suppose (c'est-à-dire la plus conservatrice) par rapport à la mesure d'entropie continue de Shannon (qui est quelque peu arbitraire sur le cas continu, mais, au moins pour moi, totalement objectif dans le cas discret, mais c'est une autre histoire), est la distribution gaussienne. Il s'agit d'une forme du soi-disant «principe d'entropie maximale», qui n'est pas si répandue car l'utilisation réelle de la forme de l'entropie est quelque peu arbitraire (voir cet article Wikipedia pour plus d'informations sur cette mesure ).
PD: Je dois ajouter au principe d'entropie maximale que, selon cet article , si vous connaissez la plage de variation de votre variable, vous devez faire des ajustements à la distribution que vous obtenez par le principe d'entropie maximale.
la source
Ma réponse est d'accord avec le premier répondant. Le théorème de la limite centrale vous dit que si votre statistique est une somme ou une moyenne, elle sera approximativement normale dans certaines conditions techniques, quelle que soit la distribution des échantillons individuels. Mais vous avez raison de dire que parfois les gens vont trop loin juste parce que cela semble convenable. Si votre statistique est un ratio et que le dénominateur peut être nul ou proche, le ratio sera trop étroit pour la normale. Gosset a constaté que même lorsque vous échantillonnez à partir d'une distribution normale une moyenne normalisée où l'écart-type de l'échantillon est utilisé pour la constante de normalisation, la distribution est la distribution t avec n-1 degrés de liberté lorsque n est la taille de l'échantillon. Dans ses expériences sur le terrain à la brasserie Guiness, il a des tailles d'échantillon qui pourraient être de l'ordre de 5 à 10. Dans ces cas, la distribution t est similaire à la distribution normale standard en ce qu'elle est symétrique par rapport à 0, mais elle a des queues beaucoup plus lourdes. Notez que la distribution t converge vers la normale standard lorsque n devient grand. Dans de nombreux cas, la distribution que vous avez peut être bimodale car il s'agit d'un mélange de deux populations. Parfois, ces distributions peuvent être ajustées comme un mélange de distributions normales. Mais ils ne ressemblent certainement pas à une distribution normale. Si vous regardez un manuel de statistiques de base, vous trouverez de nombreuses distributions paramétriques continues et discrètes qui posent souvent des problèmes d'inférence. Pour les données discrètes, nous avons le binôme binomial, Poisson, géométrique, hypergéométrique et négatif pour n'en nommer que quelques-uns. Des exemples continus incluent le chi carré, lognormal, Cauchy, exponentiel négatif, Weibull et Gumbel.
la source
L'utilisation du CLT pour justifier l'utilisation de la distribution gaussienne est une erreur courante car le CLT est appliqué à la moyenne de l'échantillon, pas aux observations individuelles. Par conséquent, l'augmentation de la taille de votre échantillon ne signifie pas que l'échantillon est plus proche de la normalité.
La distribution gaussienne est couramment utilisée car:
Bien sûr, la meilleure option est d'utiliser une distribution qui prend en compte les caractéristiques de votre contexte, mais cela peut être difficile. Cependant, c'est quelque chose que les gens devraient faire
"Tout devrait être aussi simple que possible, mais pas plus simple." (Albert Einstein)
J'espère que ça aide.
Meilleurs vœux.
la source