Comment pouvons-nous obtenir une distribution normale comme si la plage de valeurs de notre variable aléatoire est bornée?

12

Disons que nous avons une variable aléatoire avec une plage de valeurs délimitées par et , où est la valeur minimale et la valeur maximale.b a babab

On m'a dit que comme , où est notre taille d'échantillon, la distribution d'échantillonnage de nos moyennes d'échantillon est une distribution normale. Autrement dit, lorsque nous augmentons nous nous rapprochons de plus en plus d'une distribution normale, mais la limite réelle en tant que est égale à une distribution normale.nnnn nn

Cependant, ne fait-il pas partie de la définition de la distribution normale qu'elle doit étendre de à ?

Si le maximum de notre plage est , alors la moyenne maximale de l'échantillon (quelle que soit la taille de l'échantillon) va être égale à et la moyenne minimale de l'échantillon égale à .b abba

Il me semble donc que même si nous prenons la limite lorsque approche de l'infini, notre distribution n'est pas une distribution normale réelle, car elle est limitée par et .nbab

Qu'est-ce qui me manque ?

jeremy radcliff
la source

Réponses:

15

Voici ce qui vous manque. La distribution asymptotique n'est pas de (la moyenne de l' échantillon), mais , où est la moyenne de .X¯nθXn(X¯nθ)θX

Soit des variables aléatoires iid telles que et ont une moyenne et une variance . Ainsi, a un support limité. Le CLT indique que a < X i < b X i θ σ 2 X i X1,X2,a<Xi<bXiθσ2Xi

n(X¯nθ)dN(0,σ2),

où est la moyenne de l'échantillon. MaintenantX¯n

a<Xi<ba<X¯n<baθ<X¯nθ<bθn(aθ)<n(X¯nθ)<n(bθ).

Comme , la borne inférieure et la borne supérieure ont tendance à et respectivement, et donc comme le support de est exactement la vraie ligne entière.- n nnn(X¯nθ)

Chaque fois que nous utilisons le CLT dans la pratique, nous disons , et ce sera toujours une approximation.X¯nN(θ,σ2/n)


EDIT: Je pense qu'une partie de la confusion vient de la mauvaise interprétation du théorème de la limite centrale. Vous avez raison de dire que la distribution d'échantillonnage de la moyenne de l'échantillon est

X¯nN(θ,σ2/n).

Cependant, la distribution d'échantillonnage est une propriété d'échantillon fini. Comme vous l'avez dit, nous voulons laisser ; une fois que nous faisons cela, le signe sera un résultat exact. Cependant, si nous laissons , nous ne pouvons plus avoir un sur le côté droit (puisque est maintenant ). Par conséquent, l'instruction suivante est incorrecten n n ˉ X n d N ( θ , σ 2 / n )  comme  n .nnnn

X¯ndN(θ,σ2/n) as n.

[Ici signifie convergence en termes de distribution]. Nous voulons écrire le résultat avec précision, donc le n'est pas sur le côté droit. Ici, nous utilisons maintenant les propriétés des variables aléatoires pour obtenir ndn

n(X¯nθ)dN(0,σ2)

Pour voir comment fonctionne l'algèbre, regardez la réponse ici .

Greenparker
la source
Je vous remercie. Je comprends votre algèbre d'inégalité mais j'ai encore une certaine confusion à propos de votre premier paragraphe: "La distribution asymptotique n'est pas de (la moyenne de l'échantillon), mais de ... ". J'ai pensé que le CLT a dit que la distribution d'échantillonnage des moyennes d'échantillons se rapproche d'une distribution normale comme , et j'ai pensé que était le RV qui prend toutes les valeurs possibles d'échantillons de taille . D'où vient ? Pourquoi sommes-nous intéressés par cette distribution et non par la distribution de ? X¯nn(X¯nθ)nX¯nnn(X¯nθ)X¯n
jeremy radcliff
(suite) S'agit-il de normaliser la distribution des moyennes de l'échantillon? Est-ce de là que vient la racine carrée? Cela a-t-il à voir avec les scores ? Z
jeremy radcliff
@jeremyradcliff J'ai modifié ma réponse et inclus un lien qui explique certains détails. J'espère que cela a plus de sens maintenant.
Greenparker
1
Merci beaucoup d'avoir pris le temps d'éditer, le lien que vous avez fourni correspond exactement à ce que je cherchais. Et vous avez raison, le problème était que j'avais du mal à concilier la nature finie de la distribution d'échantillonnage et le fait que nous prenons to . n
jeremy radcliff
7

Si vous faites référence à un théorème central de limite, notez qu'une bonne façon de l'écrire est

(x¯μσ)ndN(0,1)

dans des conditions normales ( étant la moyenne et l'écart type de ).x iμ,σxi

Avec cette définition formelle, vous pouvez voir tout de suite que le côté gauche peut prendre des valeurs pour n'importe quelle plage finie étant donné un assez grand .n

Pour aider à se connecter à l'idée informelle selon laquelle "une moyenne s'approche d'une distribution normale pour un grand ", nous devons réaliser que "s'approche d'une distribution normale" signifie que les CDF se rapprochent arbitrairement d' une distribution normale lorsque devient grand. Mais à mesure que devient grand, l'écart-type de cette distribution approximative diminue, de sorte que la probabilité d'une queue extrême de la normale approximative passe également à 0.n nnnn

Par exemple, supposons . Ensuite, vous pouvez utiliser l'approximation informelle pour dire queXiBern(p=0.5)

X¯˙N(p,p(1p)n)

Donc, s'il est vrai que pour tout fini ,n

P(N(p,p(1p)n)<0)>0

(ce qui implique que l'approximation n'est clairement jamais parfaite), comme ,n

P(N(p,p(1p)n)<0)0

Donc , cet écart entre la distribution réelle et la distribution approximative est en train de disparaître, comme il est censé se produire avec des approximations.

Cliff AB
la source