Distribution normale et transformations monotones

9

J'ai entendu dire que de nombreuses quantités présentes dans la nature sont normalement distribuées. Ceci est généralement justifié en utilisant le théorème de la limite centrale, qui dit que lorsque vous faites la moyenne d'un grand nombre de variables aléatoires iid, vous obtenez une distribution normale. Ainsi, par exemple, un trait qui est déterminé par l'effet additif d'un grand nombre de gènes peut être approximativement normalement distribué puisque les valeurs des gènes peuvent se comporter à peu près comme des variables aléatoires.

Maintenant, ce qui m'embrouille, c'est que la propriété d'être normalement distribué n'est clairement pas invariante sous les transformations monotones. Donc, s'il y a deux façons de mesurer quelque chose qui est lié par une transformation monotone, il est peu probable qu'elles soient toutes les deux distribuées normalement (à moins que cette transformation monotone ne soit linéaire). Par exemple, nous pouvons mesurer la taille des gouttes de pluie par diamètre, par surface ou par volume. En supposant des formes similaires pour toutes les gouttes de pluie, la surface est proportionnelle au carré du diamètre et le volume est proportionnel au cube du diamètre. Donc, toutes ces méthodes de mesure ne peuvent pas être distribuées normalement.

Ma question est donc de savoir si le mode particulier de mise à l'échelle (c'est-à-dire le choix particulier de la transformation monotone) sous lequel la distribution devient normale, doit avoir une signification physique. Par exemple, les hauteurs devraient-elles être normalement distribuées ou le carré de la hauteur, ou le logarithme de la hauteur, ou la racine carrée de la hauteur? Existe-t-il un moyen de répondre à cette question en comprenant les processus qui affectent la hauteur?

data-transformation normality-assumption Vipul
la source

Comme je l'ai toujours compris, le théorème de la limite centrale ne postule pas quelque chose sur la moyenne d'un grand nombre de variables aléatoires iid. Il indique plutôt que lors de l'échantillonnage des moyennes, la distribution des moyennes devient normale (indépendamment de la distribution sous-jacente de ce qui est échantillonné). Je me demande donc si l'antécédent de votre question tient.

Henrik

Mais, si la moyenne d'échantillonnage devient normale quelle que soit la distribution de la distribution sous-jacente, ce n'est pas la même chose que de dire «faire la moyenne d'un grand nombre de variables aléatoires iid» nous donne une distribution normale. Il me semble que ce sont des déclarations équivalentes.

Pas à mes yeux (mais j'aimerais être convaincu du contraire). Dans un cas (celui que je pense être signifié par CLT), vous tirez des échantillons d'une distribution. Leurs moyens sont normalement répartis. Ce que je comprends de la question et de la citation «moyenne un grand nombre de variables aléatoires iid» est différent: les instanciations individuelles de différentes variables aléatoires iid déterminent (ou composent) un trait. Par conséquent, aucune moyenne (c'est-à-dire le calcul d'une moyenne) à partir d'une seule distribution et, par conséquent, aucune application du CLT. Je pense que les réponses de mbq indiquent le même problème.

Henrik

1

Eh bien, la distribution n'a pas besoin d'être identique si certaines conditions sont réunies. Voir: en.wikipedia.org/wiki/…

1

@Henrik Y a-t-il une différence significative entre un échantillon unique de chacun des N VR indépendants et distribués de façon identique et N mesures indépendantes d'un seul RV?

walkytalky

5

Très bonne question. Je pense que la réponse dépend de si vous pouvez identifier le processus sous-jacent qui donne lieu à la mesure en question. Si, par exemple, vous avez la preuve que la taille est une combinaison linéaire de plusieurs facteurs (par exemple, la taille des parents, la taille des grands-parents, etc.), il serait naturel de supposer que la hauteur est normalement distribuée. D'un autre côté, si vous avez des preuves ou peut-être même une théorie selon laquelle le logarithme de la taille est une combinaison linéaire de plusieurs variables (par exemple, logarithme des hauteurs, logarithme des grand-parents, etc.), le logarithme de la taille sera normalement distribué.

Dans la plupart des situations, nous ne connaissons pas le processus sous-jacent qui détermine la mesure de l'intérêt. Ainsi, nous pouvons faire plusieurs choses:

(a) Si la distribution empirique des hauteurs semble normale, nous utilisons une densité normale pour une analyse plus approfondie qui suppose implicitement que la hauteur est une combinaison linéaire de plusieurs variables.

(b) Si la distribution empirique ne semble pas normale, alors nous pouvons essayer une transformation comme suggéré par mbq (par exemple log (hauteur)). Dans ce cas, nous supposons implicitement que la variable transformée (c.-à-d. Log (hauteur)) est une combinaison linéaire de plusieurs variables.

(c) Si (a) ou (b) n'aide pas, alors nous devons abandonner les avantages que CLT et une hypothèse de normalité nous donnent et modéliser la variable en utilisant une autre distribution.

Communauté
la source

5

La mise à l'échelle d'une variable particulière doit, lorsque cela est possible, se rapporter à une échelle compréhensible, car elle contribue à rendre le modèle résultant interprétable. Cependant, la transformation qui en résulte n'a pas nécessairement une signification physique absolue. Essentiellement, vous devez vous engager dans un compromis entre la violation de l'hypothèse de normalité et l'interprétabilité de votre modèle. Ce que j'aime faire dans ces situations, c'est avoir les données d'origine, les données transformées d'une manière qui a du sens et les données transformées de la manière la plus normale. Si les données transformées d'une manière sensée sont les mêmes que les résultats lorsque les données sont transformées d'une manière qui les rend plus normales, Je le signale d'une manière qui est interprétable avec une note latérale que les résultats sont les mêmes dans le cas des données transformées de manière optimale (et / ou non transformées). Lorsque les données non transformées se comportent particulièrement mal, je fais mes analyses avec les données transformées mais je fais de mon mieux pour rapporter les résultats en unités non transformées.

En outre, je pense que vous avez une idée fausse dans votre déclaration selon laquelle "les quantités qui se produisent dans la nature sont normalement distribuées". Cela n'est vrai que dans les cas où la valeur est "déterminée par l'effet additif d'un grand nombre" de facteurs indépendants. C'est-à-dire que les moyennes et les sommes sont normalement distribuées quelle que soit la distribution sous-jacente dont elles tirent, alors que les valeurs individuelles ne devraient pas être normalement distribuées. Comme par exemple, les tirages individuels d'une distribution binomiale ne semblent pas du tout normaux, mais une distribution des sommes de 30 tirages d'une distribution binomiale semble plutôt normale.

russellpierce
la source

5

Je dois admettre que je ne comprends pas vraiment votre question:

votre exemple de gouttes de pluie n'est pas très satisfaisant car cela n'illustre pas le fait que le comportement gaussien provient de la "moyenne d'un grand nombre de variables aléatoires iid".
$X$ $\frac{Y_1+\ldots+Y_N}{N}$ $\frac{f(Y_1)+\ldots+f(Y_N)}{N}$
$X$ $f(X)$
pourriez-vous citer de vrais exemples de comportements gaussiens (réels) issus de la moyenne: ce n'est pas très courant! Le comportement gaussien est souvent utilisé en statistique comme première approximation grossière car les calculs sont très maniables. Comme les physiciens utilisent l'approximation harmonique, les statisticiens utilisent l'approximation gaussienne.

Alekk
la source

le principe d'entropie maximale est également une autre raison pour laquelle la distribution gaussienne est utilisée. Par exemple, quelles sont les bonnes raisons d'utiliser les erreurs gaussiennes dans le modèle linéaire, à l'exception de la tractabilité?

Alekk

5

Vipul, vous n'êtes pas totalement précis dans votre question.

Ceci est généralement justifié en utilisant le théorème de la limite centrale, qui dit que lorsque vous faites la moyenne d'un grand nombre de variables aléatoires iid, vous obtenez une distribution normale.

Je ne suis pas tout à fait sûr que c'est ce que vous dites, mais gardez à l'esprit que les gouttes de pluie dans votre exemple ne sont pas des variables aléatoires. La moyenne calculée en échantillonnant un certain nombre de ces gouttes de pluie est une variable aléatoire, et comme les moyennes sont calculées en utilisant un échantillon suffisamment grand, la distribution de cette moyenne d'échantillon est normale.

La loi des grands nombres dit que la valeur de cette moyenne d'échantillon converge vers la valeur moyenne de la population (forte ou faible selon le type de convergence).

Le CLT dit que la moyenne de l'échantillon, appelons-la XM (n), qui est une variable aléatoire, a une distribution, disons G (n). À mesure que n s'approche de l'infinité, cette distribution est la distribution normale. CLT est tout au sujet de la convergence dans la distribution , pas un concept de base.

Les observations que vous faites (diamètre, surface, volume) ne doivent pas du tout être normales. Ils ne le seront probablement pas si vous les complotez. Mais, la moyenne de l'échantillon tirée des trois observations aura une distribution normale. Et, le volume ne sera pas le cube du diamètre, ni la zone le carré du diamètre. Le carré des sommes ne sera pas la somme des carrés, sauf si vous avez une chance étrange.

Baltimark
la source

4

Simplement CLT (ni aucun autre théorème) ne dit pas que chaque quantité dans l'univers est normalement distribuée. En effet, les statisticiens utilisent souvent des transformations monotones pour améliorer la normalité, afin qu'ils puissent utiliser leurs outils préférés.

la source

4

Je pense que vous avez mal compris (la moitié de) l'utilisation que fait le statisticien de la distribution normale, mais j'aime beaucoup votre question.

Je ne pense pas que ce soit une bonne idée de supposer systématiquement la normalité et j'avoue que cela se fait parfois (peut-être parce que la distribution normale est traitable, unimodale ...) sans vérification. Par conséquent, votre remarque sur la carte monotone est excellente!

Cependant, l'utilisation puissante de la normalité survient lorsque vous vous construisez de nouvelles statistiques telles que celle qui apparaît lorsque vous appliquez la contrepartie empirique de l'attente: la moyenne empirique . C'est donc la moyenne empirique et plus généralement le lissage qui fait apparaître la normalité partout ...

Robin Girard
la source

2

Une variable aléatoire et de nombreuses transformations peuvent être à peu près normales; en effet, si la variance est faible par rapport à la moyenne, il se peut qu'une très grande variété de transformations paraisse assez normale.

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

4 histogrammes montrant une quasi-normalité

( cliquez pour une version plus grande )

Glen_b -Reinstate Monica
la source

Distribution normale et transformations monotones

Réponses: