D'où vient dans le théorème de la limite centrale (CLT)?

36

Une version très simple du théorème central limité comme ci-dessous qui est Lindeberg – Lévy CLT. Je ne comprends pas pourquoi il y a un sur le côté gauche. Et Lyapunov CLT dit mais pourquoi pas ? Quelqu'un pourrait-il me dire quels sont ces facteurs, tels que \ sqrt {n} et \ frac {1} {s_n} ? comment pouvons-nous les obtenir dans le théorème?

n((1ni=1nXi)μ) d N(0,σ2)
n
1sni=1n(Xiμi) d N(0,1)
snn1sn
Cochon volant
la source
3
Ceci est expliqué à l' adresse stats.stackexchange.com/questions/3734 . Cette réponse est longue, car elle demande "l'intuition". Il conclut: "Cette approximation simple suggère cependant comment de Moivre aurait pu initialement soupçonner l'existence d'une distribution limite universelle, son logarithme est une fonction quadratique et le facteur d'échelle approprié sn doit être proportionnel à n ...
whuber
1
Intuitivement, si tout σi=σ alors sn=σi2=nσ et la deuxième ligne suit de la première ligne:
n((1ni=1nXi)μ)=1ni=1n(Xiμ)d N(0,σ2)
divise par 1σ=snn
1ni=1n(Xiμ)snn=1sni=1n(Xiμi)d N(0,1)
(bien sûr la condition de Lyapunov, combinaison désactivée all σi , est une autre question)
Sextus Empiricus

Réponses:

33

Belle question (+1) !!

Vous vous souviendrez que pour les variables aléatoires indépendantes X et Y , Var(X+Y)=Var(X)+Var(Y) et Var(aX)=a2Var(X) . Donc la variance de i=1nXi est i=1nσ2=nσ2 , et la variance de X¯=1ni=1nXi est nσ2/n2=σ2/n .

Ceci est pour la variance . Pour normaliser une variable aléatoire, vous la divisez par son écart-type. Comme vous le savez, la valeur attendue de est , donc la variable μX¯μ

N(0,

X¯E(X¯)Var(X¯)=nX¯μσ
a la valeur attendue 0 et la variance 1. Donc, si elle tend à être gaussienne, il doit s'agir du gaussien standard . Votre formulation dans la première équation est équivalente. En multipliant le côté gauche par vous définissez la variance sur .σ σ 2N(0,1)σσ2

En ce qui concerne votre deuxième point, je pense que l’équation présentée ci-dessus montre que vous devez diviser par et non pas pour standardiser l’équation, en expliquant pourquoi vous utilisez (l’estimateur de et non .σ snσ)σsnσ)sn

Ajout: @whuber suggère de discuter du pourquoi de la mise à l'échelle par . Il le fait là- bas , mais comme la réponse est très longue, je vais essayer de saisir l'essentiel de son argument (qui est une reconstruction des pensées de de Moivre).n

Si vous ajoutez un grand nombre de +1 et de -1, vous pouvez approximer la probabilité que la somme soit par comptage élémentaire. Le log de cette probabilité est proportionnel à . Donc, si nous voulons que la probabilité ci-dessus converge vers une constante lorsque augmente, nous devons utiliser un facteur de normalisation dans .j - j 2 / n n O ( njj2/nnO(n)

En utilisant des outils mathématiques modernes (post de Moivre), vous pouvez voir l’approximation mentionnée ci-dessus en remarquant que la probabilité recherchée est:

P(j)=(nn/2+j)2n=n!2n(n/2+j)!(n/2j)!

que nous approchons par la formule de Stirling

P(j)nnen/2+jen/2j2nen(n/2+j)n/2+j(n/2j)n/2j=(11+2j/n)n+j(112j/n)nj.

log(P(j))=(n+j)log(1+2j/n)(nj)log(12j/n)2j(n+j)/n+2j(nj)/nj2/n.
gui11aume
la source
S'il vous plaît voir mes commentaires aux réponses précédentes par Michael C. et le gars.
whuber
Cela ressemble à la première équation (LL CLT) s / b ? Cela m'a aussi dérouté que apparaisse comme la variance. σ 2n((1ni=1nXi)μ) d N(0,1)σ2
B_Miner
Si vous paramétrez la gaussienne avec moyenne et variance (pas l'écart type), alors je crois que la formule de OP est correcte.
jeudi
1
Ahh..Donné que si nous multiplions de nous obtenons ce qui était montré par l'OP ( cancel): à savoir . Mais nous savons que VAR (aX) = a ^ 2Var (X) où dans ce cas a = et Var (X) est 1, la distribution est donc . ˉ X - E ( ˉ X )X¯E(X¯)Var(X¯)=nX¯μσd N(0,1) σσX¯E(X¯)Var(X¯)σσσ2N(0,n((1ni=1nXi)μ)σ2N(0,σ2)
B_Miner
Gui, si pas trop tard je voulais m'assurer que j'avais ce correct. Si nous supposons que et nous multiplions par une constante ( ), la valeur attendue de cette quantité (ie ), qui valait zéro, est toujours égal à E, car E [aX] = a * E [X] => * 0 = 0. Est-ce correct? σ X¯E(X¯)Var(X¯)=n(X¯μ)d N(0,1)σσn(X¯μ)σ
B_Miner
8

Il existe une belle théorie sur le type de distributions pouvant limiter les distributions des sommes de variables aléatoires. La ressource intéressante est le livre suivant de Petrov, que j'ai personnellement énormément apprécié.

Il s'avère que si vous étudiez les limites de ce type où sont des variables aléatoires indépendantes, les distributions des limites sont seulement certaines distributions.X i

1ani=1nXnbn,(1)
Xi

Il y a beaucoup de mathématiques qui circulent alors, qui se résument à plusieurs théorèmes qui caractérisent complètement ce qui se passe dans la limite. Un de ces théorèmes est dû à Feller:

Théorème Soit une séquence de variables aléatoires indépendantes, la fonction de distribution de et une séquence de constante positive. Afin queV n ( x ) X n a n{Xn;n=1,2,...}Vn(x)Xnan

max1knP(|Xk|εan)0, for every fixed ε>0

et

supx|P(an1k=1nXk<x)Φ(x)|0

il est nécessaire et suffisant que

k=1n|x|εandVk(x)0 for every fixed ε>0,

an2k=1n(|x|<anx2dVk(x)(|x|<anxdVk(x))2)1

et

an1k=1n|x|<anxdVk(x)0.

Ce théorème vous donne alors une idée de ce à quoi devrait ressembler.an

La théorie générale dans le livre est construite de telle manière que la constante de normalisation soit restreinte de quelque manière que ce soit, mais les théorèmes finaux qui donnent les conditions nécessaires et suffisantes ne laissent aucune autre place pour la constante de normalisation que .n

mpiktas
la source
4

s représente l'écart type de l'échantillon pour la moyenne de l'échantillon. s est la variance de l'échantillon pour la moyenne de l'échantillon et égale à S / n. Où S est l'estimation de l'échantillon de la variance de la population. Puisque s = S / √n, cela explique comment √n apparaît dans la première formule. Notez qu'il y aurait un σ dans le dénominateur si la limite étaitn 2 n 2nn2n22 n nn2nn

N (0,1) mais la limite est donnée par N (0, σ ). Puisque S est une estimation cohérente de σ, il est utilisé dans la deuxième équation pour extraire σ de la limite.n2n

Michael R. Chernick
la source
Qu'en est-il de l'autre partie (plus fondamentale et importante) de la question: pourquoi et non une autre mesure de dispersion? sn
whuber
@ whuber Cela peut faire l'objet d'une discussion, mais cela ne faisait pas partie de la question. Le PO voulait seulement savoir pourquoi s et √n apparaissent dans la formule du CLT. Bien sûr, S est présent car il est cohérent pour σ et, sous cette forme de CLT, σ est supprimé. nn
Michael R. Chernick le
1
Pour moi, il n'est pas du tout évident que soit présent car il est "cohérent pour ". Pourquoi cela n'impliquerait-il pas également, par exemple, que devrait être utilisé pour normaliser des statistiques de valeur extrême (qui ne fonctionneraient pas)? Est-ce que je manque quelque chose de simple et qui va de soi? Et, pour faire écho à l'OP, pourquoi ne pas utiliser --après tout, c'est cohérent pour ! σ s n snσsnsnσ
whuber
Le théorème indiqué converge vers N (0,1). Pour y parvenir, vous devez donc connaître σ et l'utiliser, ou utiliser une estimation cohérente de celui-ci, ce qui fonctionne selon le théorème de Slutsky, je pense. Étais-je si incertain?
Michael R. Chernick le
Je ne pense pas que vous n'étiez pas clair; Je pense juste qu'un point important peut être manquant. Après tout, pour de nombreuses distributions, nous pouvons obtenir une distribution normale limitante en utilisant l’IQR au lieu de mais le résultat n’est pas aussi net (le SD de la distribution limitante dépend de la distribution avec laquelle nous avons commencé). Je suggère simplement que cela mérite d'être appelé et expliqué. Ce ne sera pas aussi évident pour quelqu'un qui ne possède pas l'intuition développée par 40 ans de standardisation de toutes les distributions rencontrées! sn
whuber
2

Intuitivement, si pour un certain nous devrions nous attendre à ce que soit à peu près égal à ; cela semble être une attente plutôt raisonnable, bien que je ne pense pas que ce soit nécessaire en général. La raison pour laquelle dans la première expression est que la variance de va à comme et que donc gonfle la variance de sorte que la variance de l'expression soit égale à . Dans la deuxième expression, le terme est défini comme étantσ 2 Var ( Z n ) σ 2 ZnN(0,σ2)σ2Var(Zn)σ2ˉ X n-μ0 1nX¯nμ01n σ2snnσ2sni=1nVar(Xi)tandis que la variance du numérateur augmente comme , nous avons donc à nouveau que la variance de l'expression entière est une constante ( dans ce cas).1i=1nVar(Xi)1

Essentiellement, nous savons que quelque chose "d’intéressant" se produit avec la distribution de , mais si nous ne centrons pas correctement l’échelle, nous ne pourrons pas le voir. J'ai entendu dire que cela nécessitait parfois de régler le microscope. Si nous ne explosons pas (par exemple) par alors nous avons simplement dans la distribution par la loi faible; un résultat intéressant en soi, mais pas aussi informatif que le CLT. Si nous gonflons avec tout facteur dominé par , nous obtenons toujours tandis que tout facteur qui domine ˉ X -μX¯n:=1niXiX¯μˉ X n-μ0annX¯nμ0annan(X¯nμ)0anndonne . Il s'avère que est juste le bon grossissement pour pouvoir voir ce qui se passe dans ce cas (note: toute convergence ici est dans la distribution; il existe un autre niveau de grossissement intéressant pour une convergence presque sûre, qui donne loi du logarithme itéré).an(X¯nμ)n

gars
la source
4
Une question plus fondamentale, qui devrait être abordée en premier lieu, est de savoir pourquoi le DS est utilisé pour mesurer la dispersion. Pourquoi pas le moment central absolu pour une autre valeur de ? Ou pourquoi pas l'IQR ou l'un de ses proches? Une fois que cela est répondu, alors les propriétés simples de la covariance donnent immédiatement la dépendance (comme @Gui11aume vient de l'expliquer.)kthkn
whuber
1
@whuber je suis d'accord, c'est pourquoi j'ai présenté cela comme une heuristique. Je ne suis pas sûr que cela se prête à une explication simple, bien que j'aimerais en entendre une. Pour moi, je ne suis pas sûr d'avoir une raison plus simple et explicable: "parce que le terme carré est le terme pertinent dans l'extension de Taylor de la fonction caractéristique une fois que vous soustrayez la moyenne".
mec