Ici sur Wikipedia, il est écrit:
Pour des valeurs suffisamment grandes de , (disons λ> 1000 ), la distribution normale avec la moyenne λ et la variance λ (écart type \ sqrt {\ lambda} ), est une excellente approximation de la distribution de Poisson. Si λ est supérieur à environ 10, alors la distribution normale est une bonne approximation si une correction de continuité appropriée est effectuée, c'est-à-dire P (X ≤ x), où (en minuscules) x est un entier non négatif, est remplacé par P (X ≤ x + 0,5).
Malheureusement, cela n'est pas cité. Je veux pouvoir montrer / prouver cela avec une certaine rigueur. Comment pouvez-vous réellement dire que la distribution normale est une bonne approximation lorsque , comment quantifiez-vous cette «excellente» approximation, quelles mesures ont été utilisées?
Le plus loin que j'ai avec ceci est ici où John parle d'utiliser le théorème de Berry – Esseen et se rapproche de l'erreur dans les deux CDF. D'après ce que je peux voir, il n'essaye aucune valeur de .
Réponses:
Supposons que est Poisson avec le paramètre , et est normal avec la moyenne et la variance . Il me semble que la comparaison appropriée est entre et . Ici, pour plus de simplicité, j'écris , c'est-à-dire que nous sommes intéressés lorsque correspond à des écarts-types de la moyenne.X λ Y λ Pr(X=n) Pr(Y∈[n−12,n+12]) n=λ+αλ−−√ n α
J'ai donc triché. J'ai utilisé Mathematica. Donc, et sont asymptotiques à tant que . Mais leur différence est asymptotique à Si vous tracez cela en fonction de , vous obtiendrez la même courbe que celle indiquée dans l'avant-dernière figure de http://www.johndcook.com/blog/normal_approx_to_poisson/ .Pr(X=n) Pr(Y∈[n−12,n+12])
Voici les commandes que j'ai utilisées:
Aussi, avec un peu d'expérimentation, il me semble qu'une meilleure approximation asymptotique de est . L'erreur est alors qui est environ fois plus petit.Pr(X=n) Pr(Y∈[n−α2/6,n+1−α2/6])
la source
Glen_b a raison dans la mesure où «bon ajustement» est une notion très subjective. Cependant, si vous voulez vérifier que votre distribution de poisson est raisonnablement normale, vous pouvez utiliser un test de Kolmorgov-Smirnov hypothétique avec l'hypothèse nulle étant le CDF provient d'une distribution , en supposant votre échantillon proviendra d'un poisson ( ). Étant donné que vous ne testez pas réellement un échantillon, mais une distribution contre une autre, vous devez réfléchir soigneusement à la taille de l'échantillon et au niveau de signification que vous supposez pour ce test hypothétique (car nous n'utilisons pas le test KS de manière typique). C'est:H0: N(λ,λ) λ
Maintenant, calculez le taux d'erreur de type II pour ce test en supposant que vos données proviennent réellement d'un poisson ( ). Votre degré d'ajustement avec une distribution normale sera ce taux d'erreur de type II, dans le sens où des échantillons de taille n de votre distribution de poisson particulière seront, en moyenne, acceptés % du temps par un test de normalité KS à votre choix niveau de signification.λ β
Quoi qu'il en soit, ce n'est qu'une façon de se faire une idée de la "qualité de l'ajustement". Cependant, tous s'appuient sur certaines notions subjectives de «bonté» que vous devrez définir par vous-même.
la source
La dérivation de la distribution binomiale pourrait vous donner un aperçu.
Nous avons une variable aléatoire binomiale;
Ceci peut également être calculé récursivement;
Si vous conservez la condition initiale;
Supposons maintenant que est grand et est petit mais le succès moyen de est constant . Ensuite, nous pouvons faire ce qui suit;n p p(x) (np=λ)
Nous utilisons cela .p=λ/n
Nous inversons certaines variables et évaluons;
Du calcul, nous savons que . Nous savons également que parce que le haut et le bas sont tous les deux des polynômes de degré .limn→∞(1+x/n)n=ex [n(n−1)(n−2)⋯(n−i+1)]/ni≈1 i
Cela conduit à la conclusion que, comme :n→∞
Vous pouvez ensuite vérifier que et via la définition. Nous savons que la distribution binomiale se rapproche de la normale dans les conditions du théorème de De Moivre-Laplace tant que vous corrigez la continuité, c'est pourquoi est remplacé par .E(X)=λ Var(X)=λ P(X≤x) P(X≤x+0.5)
la source