Approximation normale de la distribution de Poisson

12

Ici sur Wikipedia, il est écrit:

Pour des valeurs suffisamment grandes de , (disons λ> 1000 ), la distribution normale avec la moyenne λ et la variance λ (écart type \ sqrt {\ lambda} ), est une excellente approximation de la distribution de Poisson. Si λ est supérieur à environ 10, alors la distribution normale est une bonne approximation si une correction de continuité appropriée est effectuée, c'est-à-dire P (X ≤ x), où (en minuscules) x est un entier non négatif, est remplacé par P (X ≤ x + 0,5).λλ>1000λλλλP(Xx),xP(Xx+0.5).

FPoisson(x;λ)Fnormal(x;μ=λ,σ2=λ)

Malheureusement, cela n'est pas cité. Je veux pouvoir montrer / prouver cela avec une certaine rigueur. Comment pouvez-vous réellement dire que la distribution normale est une bonne approximation lorsque λ>1000 , comment quantifiez-vous cette «excellente» approximation, quelles mesures ont été utilisées?

Le plus loin que j'ai avec ceci est ici où John parle d'utiliser le théorème de Berry – Esseen et se rapproche de l'erreur dans les deux CDF. D'après ce que je peux voir, il n'essaye aucune valeur de λ1000 .

hgeop
la source
6
Vous ne pouvez pas le prouver sans définir «bon». (Vous pouvez prouver un résultat asymptotique, mais vous ne pouvez pas le déclarer «bon» à une taille d'échantillon spécifique sans définir vos critères.) Vous pouvez démontrer son comportement par un exemple direct (à partir duquel les gens peuvent voir à quel point le «bon» est bon). est par leurs propres lumières). Pour les critères typiques que les gens ont tendance à utiliser, une correction de continuité fonctionne bien pour tant que vous n'entrez pas profondément dans la queue. λ>10
Glen_b -Reinstate Monica
1
(Pour être plus précis, si votre critère est une erreur absolue, vous pouvez potentiellement obtenir un «bon» partout avec de petits échantillons comme 10, mais la plupart des gens se soucient de quelque chose de plus proche de l'erreur relative)
Glen_b -Reinstate Monica

Réponses:

7

Supposons que est Poisson avec le paramètre , et est normal avec la moyenne et la variance . Il me semble que la comparaison appropriée est entre et . Ici, pour plus de simplicité, j'écris , c'est-à-dire que nous sommes intéressés lorsque correspond à des écarts-types de la moyenne.XλYλPr(X=n)Pr(Y[n12,n+12])n=λ+αλnα

J'ai donc triché. J'ai utilisé Mathematica. Donc, et sont asymptotiques à tant que . Mais leur différence est asymptotique à Si vous tracez cela en fonction de , vous obtiendrez la même courbe que celle indiquée dans l'avant-dernière figure de http://www.johndcook.com/blog/normal_approx_to_poisson/ .Pr(X=n)Pr(Y[n12,n+12])

12πλeα2/2
λ
α(α23)eα2/262πλ
α

Voici les commandes que j'ai utilisées:

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

Aussi, avec un peu d'expérimentation, il me semble qu'une meilleure approximation asymptotique de est . L'erreur est alors qui est environ fois plus petit.Pr(X=n)Pr(Y[nα2/6,n+1α2/6])

(5α49α26)eα2/2722πλ3/2
λ
Stephen Montgomery-Smith
la source
2

Glen_b a raison dans la mesure où «bon ajustement» est une notion très subjective. Cependant, si vous voulez vérifier que votre distribution de poisson est raisonnablement normale, vous pouvez utiliser un test de Kolmorgov-Smirnov hypothétique avec l'hypothèse nulle étant le CDF provient d'une distribution , en supposant votre échantillon proviendra d'un poisson ( ). Étant donné que vous ne testez pas réellement un échantillon, mais une distribution contre une autre, vous devez réfléchir soigneusement à la taille de l'échantillon et au niveau de signification que vous supposez pour ce test hypothétique (car nous n'utilisons pas le test KS de manière typique). C'est:H0:N(λ,λ)λ

  • Choisissez un échantillon représentatif et hypothétique, n, et ajustez le niveau de signification du test à une valeur typique, par exemple 5%.

Maintenant, calculez le taux d'erreur de type II pour ce test en supposant que vos données proviennent réellement d'un poisson ( ). Votre degré d'ajustement avec une distribution normale sera ce taux d'erreur de type II, dans le sens où des échantillons de taille n de votre distribution de poisson particulière seront, en moyenne, acceptés % du temps par un test de normalité KS à votre choix niveau de signification.λβ

Quoi qu'il en soit, ce n'est qu'une façon de se faire une idée de la "qualité de l'ajustement". Cependant, tous s'appuient sur certaines notions subjectives de «bonté» que vous devrez définir par vous-même.


la source
2

La dérivation de la distribution binomiale pourrait vous donner un aperçu.

Nous avons une variable aléatoire binomiale;

p(x)=(nx)px(1p)nx

Ceci peut également être calculé récursivement;

p(x)=(nx+1)px(1p)p(x1)

Si vous conservez la condition initiale;

p(0)=(1p)n

Supposons maintenant que est grand et est petit mais le succès moyen de est constant . Ensuite, nous pouvons faire ce qui suit;npp(x)(np=λ)

P(X=i)=(ni)px(1p)nx

Nous utilisons cela .p=λ/n

P(X=i)=n!(ni)!i!(λn)i(1λn)ni

Nous inversons certaines variables et évaluons;

P(X=i)=n(n1)(n2)(ni+1)niλii!(1λn)n(1λn)i

Du calcul, nous savons que . Nous savons également que parce que le haut et le bas sont tous les deux des polynômes de degré .limn(1+x/n)n=ex[n(n1)(n2)(ni+1)]/ni1i

Cela conduit à la conclusion que, comme :n

P(X=i)eλλii!

Vous pouvez ensuite vérifier que et via la définition. Nous savons que la distribution binomiale se rapproche de la normale dans les conditions du théorème de De Moivre-Laplace tant que vous corrigez la continuité, c'est pourquoi est remplacé par .E(X)=λVar(X)=λP(Xx)P(Xx+0.5)

Vincent Warmerdam
la source