En quoi la distribution de Poisson est-elle différente de la distribution normale?

J'ai généré un vecteur qui a une distribution de Poisson, comme suit:

x = rpois(1000,10)

Si je fais un histogramme en utilisant hist(x), la distribution ressemble à une distribution normale en forme de cloche familière. Cependant, un test de Kolmogorov-Smirnoff utilisant ks.test(x, 'pnorm',10,3)indique que la distribution est significativement différente d'une distribution normale, en raison de sa très petite pvaleur.

Ma question est donc la suivante: en quoi la distribution de Poisson diffère-t-elle d'une distribution normale, lorsque l'histogramme ressemble tellement à une distribution normale?

distributions histogram normal-distribution poisson-distribution luciano
la source

Aussi (comme complément à la réponse de David): lisez ceci ( stats.stackexchange.com/a/2498/603 ) et définissez votre taille d'échantillon sur 100 et voyez la différence que cela fait.

user603

Réponses:

Une distribution de Poisson est discrète tandis qu'une distribution normale est continue, et une variable aléatoire de Poisson est toujours> = 0. Ainsi, un test de Kolgomorov-Smirnov sera souvent en mesure de faire la différence.
Lorsque la moyenne d'une distribution de Poisson est grande, elle devient similaire à une distribution normale. Cependant, rpois(1000, 10)ne semble même pas que semblable à une distribution normale (il arrête à 0 et la queue droite est trop long).
Pourquoi le comparez-vous ks.test(..., 'pnorm', 10, 3)plutôt que ks.test(..., 'pnorm', 10, sqrt(10))? La différence entre 3 et est petit mais fera lui-même une différence lors de la comparaison des distributions. Même si la distribution était vraiment normale, vous vous retrouveriez avec une distribution de valeur p anti-conservatrice: $\sqrt{10}$
```
set.seed(1)

hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
```

entrez la description de l'image ici

David Robinson
la source

Souvent, les gens verront quelque chose de vaguement symétrique et supposeront que cela semble «normal». Je soupçonne que ce que @ Ross a vu.

Fraijo

Notez que le test KS suppose généralement des distributions continues, donc s'appuyer sur la valeur de p rapportée dans ce cas peut (également) être quelque peu suspect.

cardinal

Vrai: l'exécution hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))montre qu'un test comparant deux distributions de Poisson identiques serait trop conservateur.

David Robinson

@Fraijo: en effet. Nous avons une question plus générale sur ce thème: si mon histogramme montre une courbe en forme de cloche, puis-je dire que mes données sont normalement distribuées?

Silverfish

Voici un moyen beaucoup plus simple de le comprendre:

Vous pouvez considérer la distribution binomiale comme la «mère» de la plupart des distributions. La distribution normale n'est qu'une approximation de la distribution binomiale lorsque n devient suffisamment grand. En fait, Abraham de Moivre a essentiellement découvert la distribution normale en essayant d'approximer la distribution binomiale, car il devient rapidement incontrôlable de calculer la distribution binomiale à mesure que n croît, surtout lorsque vous n'avez pas d'ordinateur ( référence ).

La distribution de Poisson n'est également qu'une autre approximation de la distribution binomiale, mais elle est bien meilleure que la distribution normale lorsque n est grand et p est petit, ou plus précisément lorsque la moyenne est approximativement la même que la variance (rappelez-vous que pour la distribution binomiale, moyenne = np et var = np (1-p)) ( référence ). Pourquoi cette situation particulière est-elle si importante? Apparemment, cela fait beaucoup surface dans le monde réel et c'est pourquoi nous avons cette approximation "spéciale". L'exemple ci-dessous illustre des scénarios où l'approximation de Poisson fonctionne vraiment bien.

Exemple

Nous avons un centre de données de 100 000 ordinateurs. La probabilité qu'un ordinateur donné tombe en panne aujourd'hui est de 0,001. Donc en moyenne np = 100 ordinateurs tombent en panne dans le centre de données. Quelle est la probabilité que seulement 50 ordinateurs tombent en panne aujourd'hui?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

En fait, la qualité d'approximation pour la distribution normale descend dans le drain lorsque nous allons dans la queue de la distribution, mais Poisson continue de tenir très bien. Dans l'exemple ci-dessus, considérons quelle est la probabilité que seulement 5 ordinateurs tombent en panne aujourd'hui?

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

Espérons que cela vous donne une meilleure compréhension intuitive de ces 3 distributions.

Shital Shah
la source

Quelle réponse incroyable et géniale! Merci beaucoup. :)

Bora M. Alper

$\lambda$ $n$ $p_n$ $p_n = \lambda / n$

Un développement assez long peut être trouvé sur ce blog .

$X_n \sim \mathrm{Binomial}(n,\lambda/n)$ $k$

\begin{aligned} P (X_{n} = k) & = \frac{n!}{k! (n - k)!} {(\frac{λ}{n})}^{k} {(1 - \frac{λ}{n})}^{n - k} \\ = \underset{\to 1}{\underset{⏟}{\frac{n! n^{- k}}{(n - k)!}}} \frac{λ^{k}}{k!} \underset{\to e^{- λ}}{\underset{⏟}{(1 - λ / n)^{n}}} \cdot \underset{\to 1}{\underset{⏟}{(1 - λ / n)^{- k}}} . \end{aligned}

$\begin{align} \mathbb P(X_n = k) &= \frac{n!}{k!(n-k)!} \left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k} \\ &= \underbrace{\frac{n! n^{-k}}{(n-k)!}}_{\to 1} \frac{\lambda^k}{k!}\underbrace{(1-\lambda/n)^n}_{\to e^{-\lambda}} \cdot \underbrace{(1-\lambda/n)^{-k}}_{\to 1} \>. \end{align}$

$n \to \infty$ $k$

P (X_{n} = k) \to \frac{e^{- λ} λ^{k}}{k!},

$\mathbb P(X_n = k) \to \frac{e^{-\lambda} \lambda^k}{k!} \,,$

n \to \infty

$n \to \infty$

(1 - λ / n)^{n} \to e^{- λ}

$(1-\lambda/n)^n \to e^{-\lambda}$

$n$ $p$ $\approxeq^d \mathcal N(np, np(1-p))$ $n \rightarrow \infty$ $p$ $p_n = \lambda / n \rightarrow 0$ $\lambda$ $n$

muratoa
la source

(+1) Bienvenue sur le site. J'ai fait quelques modifications; veuillez vérifier que je n'ai pas introduit d'erreurs dans le processus. Je ne savais pas trop quoi penser de la toute dernière phrase de la dernière phrase. Des éclaircissements supplémentaires pourraient être utiles.

Cardinal

J'aime la direction de ceci, bien qu'il puisse y avoir des moyens de la relier un peu plus étroitement à la question en cours en clarifiant les connexions entre les trois distributions. Par exemple (a) Une variable aléatoire binomiale (séquence) agit comme un Poisson tant que , (b) Un binôme (séquence) agit comme une normale tant que est approximativement une constante fixe et (c ) un Poisson (séquence) agit comme une normale pour les grands essentiellement en raison de sa divisibilité infinie.

n p_{n} \approx λ

$n p_n \approx \lambda$

p

$p$

λ

$\lambda$

cardinal

Bons commentaires @cardinal. À propos de la dernière phrase, pour fixe, grand le plus grand le plus grand (par exemple plus proche de ). Par conséquent, meilleure est l'approximation normale au binôme et à son tour le poisson.

n

$n$

λ

$\lambda$

p_{n}

$p_n$

1 / 2

$1/2$

muratoa

Merci. Je vois ce que tu essayais de dire maintenant. Je suis généralement d'accord, avec la mise en garde qu'il faut faire attention à la relation entre les paramètres, qui sont considérés comme fixes et qui varient avec les autres. :)

cardinal

Salut Murat et bienvenue sur le site! c'est bon de vous voir ici et j'espère que vous resterez. +1 pour expliquer pourquoi l'histogramme d'un poisson ressemble beaucoup à celui d'un normal lorsque est grand.

λ

$\lambda$

Macro