Comprendre intuitivement pourquoi la distribution de Poisson est le cas limite de la distribution binomiale

14

Dans "Data Analysis" de DS Sivia, il y a une dérivation de la distribution de Poisson, à partir de la distribution binomiale.

Ils soutiennent que la distribution de Poisson est le cas limite de la distribution binomiale lorsque , où est le nombre d'essais.MM

Question 1: Comment comprendre intuitivement cet argument?

Question 2: Pourquoi la grande limite de égale à , Où est le nombre de succès dans essais? (Cette étape est utilisée dans la dérivation.)MM!N!(MN)!MNN!NM

Ytsen de Boer
la source
C'est pertinent: stats.stackexchange.com/questions/180057/…
kjetil b halvorsen

Réponses:

5

Je vais essayer une explication simple et intuitive. Notez que pour une variable aléatoire binomiale nous avons l'espérance est n p et la variance est n p ( 1 - p ) . Maintenant, pensons que X enregistre le nombre d'événements dans un très grand nombre n d'essais, chacun avec une très faible probabilité p , de sorte que nous sommes très proches de 1 - p = 1 (vraiment ). On a alors n p = λXBin(n,p)npnp(1p)Xnp1p=1np=λdisons, et , de sorte que la moyenne et la variance sont toutes deux égales à λ . Souvenez-vous ensuite que pour une variable aléatoire de poisson distribuée, nous avons toujours une moyenne et une variance égales! C'est au moins un argument de plausibilité pour l'approximation du poisson, mais pas une preuve.np(1p)np1=λλ

Ensuite, regardez-le d'un autre point de vue, le processus de point de poisson https://en.wikipedia.org/wiki/Poisson_point_process sur la ligne réelle. Il s'agit de la distribution des points aléatoires sur la ligne que nous obtenons si des points aléatoires se produisent selon les règles:

  1. les points à intervalles disjoints sont indépendants
  2. la probabilité d'un point aléatoire dans un intervalle très court est proportionnelle à la longueur de l'intervalle
  3. la probabilité de deux points ou plus dans un intervalle très court est essentiellement nulle.

La distribution du nombre de points dans un intervalle donné (pas nécessairement court) est alors de Poisson (avec le paramètre proportionnel à la longueur). Maintenant, si nous divisons cet intervalle en de très nombreux sous-intervalles ( n ) également très courts , la probabilité de deux ou plusieurs points dans un sous-intervalle donné est essentiellement nulle, de sorte que ce nombre aura, à une très bonne approximation, une distribution de bernolli, c'est-à-dire Bin ( 1 , p ) , donc la somme de tout cela sera Bin ( n , p ) , donc une bonne approximation de la distribution de poisson du nombre de points dans cet (long) intervalle.λnBin(1,p)Bin(n,p)

Edit de @Ytsen de Boer (OP): @ Łukasz Grad répond de manière satisfaisante à la question numéro 2.

kjetil b halvorsen
la source
6

Permettez-moi de fournir une autre heuristique. Je vais montrer comment approximer le processus de Poisson sous forme de binôme (et faire valoir que l'approximation est meilleure pour de nombreux essais à faible probabilité). Par conséquent, la distribution binomiale doit tendre vers la distribution de Poisson.

Disons que les événements se produisent à un rythme constant dans le temps. Nous voulons connaître la distribution du nombre d'événements survenus dans une journée, sachant que le nombre prévu d'événements est λ .

Eh bien, le nombre prévu d'événements par heure est λ/24 . Imaginons que cela signifie que la probabilité qu'un événement se produise dans une heure donnée soit λ/24 . [ce n'est pas tout à fait vrai, mais c'est une approximation décente si λ/241 fondamentalement si nous pouvons supposer que plusieurs événements ne se produisent pas dans la même heure]. Ensuite, nous pouvons approximer la distribution du nombre d'événements sous forme de binôme avec M=24 essais, chacun ayant une probabilité de succès λ/24 .

Nous améliorons l'approximation en changeant notre intervalle en minutes. Alors c'est p=λ/1440 avec M=1440 essais. Si λ est autour, disons 10, alors nous pouvons être assez confiants qu'aucune minute n'a eu deux événements.

Bien sûr, cela va mieux si nous passons aux secondes. Nous examinons maintenant M=86400 événements chacun avec la faible probabilité λ/86400 .

Quelle que soit la taille de votre λ , je peux éventuellement choisir un Δt suffisamment petit pour qu'il soit très probable qu'aucun événement ne se produise dans le même intervalle. Alors la distribution binomiale correspondant à cette Δt sera une excellente correspondance avec la vraie distribution de Poisson.

La seule raison pour laquelle ils ne sont pas exactement les mêmes est qu'il existe une probabilité non nulle que deux événements se produisent dans le même intervalle de temps. Mais étant donné qu'il n'y a que autour des événements λ et qu'ils sont répartis dans un certain nombre de compartiments beaucoup plus grands que λ , il est peu probable que deux d'entre eux se trouvent dans le même compartiment.

En d' autres termes, la distribution binomiale tend à la distribution de Poisson comme M si la probabilité de réussite est p=λ/M .

Joel
la source
5

question 1

Rappelons la définition de la distribution binomiale:

une distribution de fréquence du nombre possible de résultats positifs dans un nombre donné d' essais dans chacun desquels il y a la même probabilité de succès.

Comparez cela à la définition de la distribution de Poisson:

une distribution de fréquence discrète qui donne la probabilité qu'un certain nombre d'événements indépendants se produisent dans un temps fixe .

La différence substantielle entre les 2 est que le binôme est dans essais, Poisson est sur une période de temps t . Comment la limite peut-elle se produire intuitivement?nt

Disons que vous devez continuer à exécuter les essais de Bernoulli pour l'éternité. De plus, vous exécutez par minute. Par minute, vous comptez chaque succès. Donc, pour toute l'éternité, vous exécutez un processus B i n ( p , 30 ) toutes les minutes. Sur 24 heures, vous avez un B i n ( p , 43200 ) .n=30Bin(p,30)Bin(p,43200)

Lorsque vous êtes fatigué, on vous demande "combien de succès ont eu lieu entre 18h00 et 19h00?". Votre réponse peut être de , c'est-à-dire que vous fournissez les succès moyens en une heure. Pour moi, cela ressemble beaucoup au paramètre Poisson λ .3060pλ


la source
5

Question 2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

Donc, en prenant la limite pour N fixeN

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1
Łukasz Grad
la source
+1. J'ai commencé par regarder l'approximation de Stirling, mais j'ai commencé à tourner en rond. Votre approche est beaucoup plus simple.
Je ne pense pas que c'est ce que l'OP trouvera intuitif ...
kjetil b halvorsen
@kjetilbhalvorsen J'ai essayé d'utiliser les mathématiques simples possible, de façon intuitive pour un grand , nous avons M M - k pour fixe k < < MMMMkk<<M
Łukasz Grad
1
@kjetilbhalvorsen Ceci est une réponse au T2 (étape de dérivation), pas au T1 (explication intuitive)
Ben Bolker
@TemplateRex Hmm mais je pense qu'en prouvant la convergence point par point, je n'ai qu'à le prouver pour chaque fixe , comme M va à l'infiité, n'est-ce pas? Soit ω Ω lim m X m ( ω ) X ( ω )NMωΩlimmXm(ω)X(ω)
Łukasz Grad
5

Le problème est que votre caractérisation du Poisson comme cas limite de la distribution binomiale n'est pas tout à fait correcte comme indiqué .

Le Poisson est un cas limite du binôme lorsque: La deuxième partie est importante. Si p reste fixe, la première condition implique que le taux augmentera également sans limite.

MandMpλ.
p

Ce que la distribution de Poisson suppose, c'est que les événements sont rares . Ce que nous entendons par "rare" n'est pas que le taux d'événements est petit - en effet, un processus de Poisson peut avoir une très haute intensité mais plutôt, que la probabilité qu'un événement se produise à tout instant dans le temps [ t , t + d t ) est extrêmement petit. Ceci contraste avec un modèle binomial où la probabilité p d'un événement (par exemple "succès") est fixée pour un essai donné.λ[t,t+dt)p

Pour illustrer, supposons que nous modélisons une série de essais de Bernoulli indépendants avec chacun une probabilité de succès p , et nous regardons ce qui arrive à la distribution du nombre de succès X comme M . Pour tout N aussi grand que nous le souhaitons, et peu importe la taille de p , le nombre de succès escomptés E [ X ] = M p > N pour M > N / pMpXMNpE[X]=Mp>NM>N/p. En d'autres termes, quelle que soit la probabilité de réussite, vous pouvez éventuellement obtenir un nombre moyen de succès aussi important que vous le souhaitez si vous effectuez suffisamment d'essais. Ainsi, (ou, simplement dire « M est grand ») ne suffit pas pour justifier un modèle de Poisson X .MMX

Il n'est pas difficile d'établir algébriquement comme cas limite de Pr [ X = x ] = ( M

Pr[X=x]=eλλxx!,x=0,1,2,
en posant p = λ / M et en laissant M . D'autres réponses ont abordé l'intuition derrière cette relation et fourni également des conseils de calcul. Mais il est important que p = λ / M . Vous ne pouvez pas ignorer cela.
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
p=λ/MMp=λ/M
heropup
la source
0

Je ne peux qu'essayer une réponse partielle et il s'agit de l'intuition de la question 2, pas d'une preuve rigoureuse.

The binomial coefficient gives you the number of samples of size N, from M, without replacement and without order.

Here though M becomes so large that you may approximate the scenario as sampling with replacement in which case you get MN ordered samples. If you don't care about the order of the N objects chosen this reduces to MN/N! because those N objects can be ordered in N! ways.

PM.
la source
-2

Balls falling through layers of pegs

I think this is the best example that intuitively explains how binomial distribution converges to normal with large number of balls. Here, each ball has equal probability of falling on either side of the peg in each layer and all the balls have to face same number of pegs. It can be easily seen that as the number of balls goes very high the distribution of balls in different sections will be like normal distribution.

My answer to your question 2 is same as the answer given by Lukasz.

samwise_the_wise
la source
2
This isn't really answering the question, it answers another question ...
kjetil b halvorsen
I have tried to intuitively explain what asked in question 1. Can you please elaborate why you think it is not an answer to it?
samwise_the_wise
1
Désolé, j'ai compris maintenant. J'ai répondu à une question complètement différente. Ma faute.
samwise_the_wise
1
Je vois une version fortement discrétisée d'une distribution binomiale. Pourquoi devrait-il être évident que la distribution des boules au fond de ce quinconce devrait être normale? Quel que soit le nombre de balles que vous déposez dans cette machine, vous obtiendrez toujours une répartition des comptages dans 13 bacs: cela ne peut pas être normal!
whuber