Pourquoi le CLT ne fonctionne-t-il pas pour

16

Nous savons donc qu'une somme de poissons avec le paramètre est elle-même un poisson avec . Donc, hypothétiquement, on pourrait prendre et dire que c'est en fait n 1 x ip o i s s o n ( λ = 1 ) où chaque x i est: x ip o i s s o n ( λ = 1 / n )nλnλxpoisson(λ=1)1nxipoisson(λ=1)xixipoisson(λ=1/n)et prenez un grand n pour que CLT fonctionne.

Cela (évidemment) ne fonctionne pas. Je suppose que cela a quelque chose à voir avec la façon dont CLT fonctionne "plus rapidement" pour les variables aléatoires qui sont "plus proches" de la normale, et que plus le lambda est petit, plus nous obtenons une variable aléatoire qui est principalement de 0 et varie rarement autre chose.

Cependant, ce que j'ai expliqué, c'est mon intuition. Existe-t-il un moyen plus formel d'expliquer pourquoi c'est le cas?

Merci!

Tal Galili
la source
6
Pour commencer, CLT a besoin que vous divisiez i=1nxi par n (auquel cas vous obtiendrez converger vers un gaussien).
Alex R.
1
@AlexR. Non, vous divisez par n , alors l'écart-type sera un facteur de 1/n
Aksakal
4
Je ne vois pas ce que cette question a à voir avec le CLT "ne fonctionne pas". Le CLT concerne des sommes standardisées de variables aléatoires avec une distribution donnée , alors que vous prenez une seule variable aléatoire et envisagez une infinité de façons de la diviser .
whuber
2
@AlexR La configuration semble incorrecte. Il y a deux processus différents en cours ici - sommation et division - et il n'y a aucune raison de supposer qu'ils devraient avoir des caractéristiques asymptotiques similaires.
whuber
3
@Aksakal: en fait, AlexR a raison. Si vous divisez par , vous obtenez une distribution dégénérée comme n . Si vous divisez par nn , vous approchez d'une distribution normale avec sd = 1 commen. nn
Cliff AB

Réponses:

13

Je suis d'accord avec @whuber que la racine de la confusion semble remplacer l'asymptotique de sommation en CLT par une sorte de division dans votre argument. En CLT on obtient le fixe la distribution puis tracer n nombres xons i de celle - ci , et calculer la somme ˉ x n = 1f(x,λ)nxi . Si nous continuons à augmentern,une chose intéressante se produit: x¯n=1ni=1nxinμ,σ2sont la moyenne et la variance de la distributionf(x).

n(x¯nμ)N(0,σ2)
μ,σ2f(x)

Ce que vous proposez de faire avec Poisson est un peu à l'envers: au lieu de sommer les variables d'une distribution fixe , vous voulez diviser la distribution fixe en parties en constante évolution . En d'autres termes, vous prenez une variable d'une distribution fixe f ( x , λ ) puis la divisez en x i de sorte que n i = 1 x ixxf(x,λ)xi

i=1nxix

Que dit CLT de ce processus? Rien. Remarque, comment dans CLT nous avons jamais changé , et sadistributionchangeantefn(x)qui converge vers unedistributionfixeN(0,σ2)n(x¯nμ)fn(x)N(0,σ2)

Dans votre configuration, ni la somme ni sa distribution f ( x , λ ) ne changent! Ils sont fixes. Ils ne changent pas, ils ne convergent vers rien. Donc, CLT n'a rien à dire à leur sujet.xf(x,λ)

De plus, CLT ne dit rien sur le nombre d'éléments dans la somme. Vous pouvez avoir une somme de 1000 variables de Poisson (0,001) et CLT ne dira rien sur la somme. Tout ce qu'il dit, c'est que si vous continuez à augmenter N, cette somme commencera à un moment donné à ressembler à une distribution normale . En fait, si N = 1 000 000, vous obtiendrez une approximation proche de la distribution normale.1Ni=1Nxi,xiPoisson(0.001)

Votre intuition ne concerne que le nombre d'éléments dans la somme, c'est-à-dire que plus la distribution de départ est différente de la normale, plus vous devez additionner d'éléments pour arriver à la normale. La façon plus formelle (mais toujours informelle) serait en regardant la fonction caractéristique de Poisson: Si vous X > > 1 , vous obtenez avec l'expansion Taylor (WRT t ) de l'exposant imbriqué: exp ( i λ t - λ / 2 t 2

exp(λ(exp(it)1))
λ>>1t C'est la fonction caractéristique de la distribution normale N ( λ , λ 2 )
exp(iλtλ/2t2)
N(λ,λ2)

Cependant, votre intuition n'est pas appliquée correctement: votre déplacement de la somme dans CLT avec une sorte de division gâche les choses et rend CLT inapplicable.

Aksakal
la source
+1 Le matériel préparatoire est joliment rédigé, très clair et va au cœur du problème.
whuber
7

Le problème avec votre exemple est que vous autorisez les paramètres à changer lorsque change. Le CLT vous dit que pour une distribution fixe avec une moyenne finie et sd, comme n ,nn

,xμndN(0,σ)

et σ sont issus de la moyenne et sd de la distribution de x .μσx

Bien sûr, pour différentes distributions (c'est-à-dire plus asymétriques par exemple), des plus grands sont nécessaires avant que l'approximation dérivée de ce théorème ne devienne raisonnable. Dans votre exemple, pour λ m = 1 / m , un n > > m est nécessaire avant que l'approximation normale est raisonnable.nλm=1/mn>>m

ÉDITER

Il y a une discussion sur la façon dont le CLT ne s'applique pas aux sommes, mais plutôt aux sommes standardisées (c'est-à-dire pasxi). En théorie, cela est bien sûr vrai: la somme non standardisée aura une distribution non définie dans la plupart des cas.xi/nxi

Fx¯nFxXiPois(λ)Y=i=1nXiPois(nλ)λPois(λ) can be approximated quite well by a normal with μ=λ, σ2=λ. So for any fixed λ, we can approximate the CDF of YPois(nλ) fairly well with Φ(ynλnλ) for a large enough n if λ>0 (approximation can trivially be applied if λ=0, but not the calculation of the CDF as I have written it).

While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.

Cliff AB
la source
5

The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend on n, say with parameter λn and λn=1 as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum Sn=i=1nXi,n. After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n. It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of Xi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n. If you would instead have taken, for example, SnPoi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, SnPoi(1) for all n, so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let sn2=Var(Sn). The Lindeberg-Feller condition is that, ϵ>0:

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in n that sn=1 for every n. For fixed n, we also have that the Xi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.

ekvall
la source
+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber