Dans "Data Analysis" de DS Sivia, il y a une dérivation de la distribution de Poisson, à partir de la distribution binomiale.
Ils soutiennent que la distribution de Poisson est le cas limite de la distribution binomiale lorsque , où est le nombre d'essais.
Question 1: Comment comprendre intuitivement cet argument?
Question 2: Pourquoi la grande limite de égale à , Où est le nombre de succès dans essais? (Cette étape est utilisée dans la dérivation.)
Réponses:
Je vais essayer une explication simple et intuitive. Notez que pour une variable aléatoire binomiale nous avons l'espérance est n p et la variance est n p ( 1 - p ) . Maintenant, pensons que X enregistre le nombre d'événements dans un très grand nombre n d'essais, chacun avec une très faible probabilité p , de sorte que nous sommes très proches de 1 - p = 1 (vraiment ≈ ). On a alors n p = λX∼Bin(n,p) np n p ( 1 - p ) X n p 1 - p = 1 ≈ n p = λ disons, et , de sorte que la moyenne et la variance sont toutes deux égales à λ . Souvenez-vous ensuite que pour une variable aléatoire de poisson distribuée, nous avons toujours une moyenne et une variance égales! C'est au moins un argument de plausibilité pour l'approximation du poisson, mais pas une preuve.n p ( 1 - p ) ≈ n p 1 = λ λ
Ensuite, regardez-le d'un autre point de vue, le processus de point de poisson https://en.wikipedia.org/wiki/Poisson_point_process sur la ligne réelle. Il s'agit de la distribution des points aléatoires sur la ligne que nous obtenons si des points aléatoires se produisent selon les règles:
La distribution du nombre de points dans un intervalle donné (pas nécessairement court) est alors de Poisson (avec le paramètre proportionnel à la longueur). Maintenant, si nous divisons cet intervalle en de très nombreux sous-intervalles ( n ) également très courts , la probabilité de deux ou plusieurs points dans un sous-intervalle donné est essentiellement nulle, de sorte que ce nombre aura, à une très bonne approximation, une distribution de bernolli, c'est-à-dire Bin ( 1 , p ) , donc la somme de tout cela sera Bin ( n , p ) , donc une bonne approximation de la distribution de poisson du nombre de points dans cet (long) intervalle.λ n Bac ( 1 , p ) Bin ( n , p )
Edit de @Ytsen de Boer (OP): @ Łukasz Grad répond de manière satisfaisante à la question numéro 2.
la source
Permettez-moi de fournir une autre heuristique. Je vais montrer comment approximer le processus de Poisson sous forme de binôme (et faire valoir que l'approximation est meilleure pour de nombreux essais à faible probabilité). Par conséquent, la distribution binomiale doit tendre vers la distribution de Poisson.
Disons que les événements se produisent à un rythme constant dans le temps. Nous voulons connaître la distribution du nombre d'événements survenus dans une journée, sachant que le nombre prévu d'événements estλ .
Eh bien, le nombre prévu d'événements par heure estλ/24 . Imaginons que cela signifie que la probabilité qu'un événement se produise dans une heure donnée soit λ/24 . [ce n'est pas tout à fait vrai, mais c'est une approximation décente si λ/24≪1 fondamentalement si nous pouvons supposer que plusieurs événements ne se produisent pas dans la même heure]. Ensuite, nous pouvons approximer la distribution du nombre d'événements sous forme de binôme avec M=24 essais, chacun ayant une probabilité de succès λ/24 .
Nous améliorons l'approximation en changeant notre intervalle en minutes. Alors c'estp=λ/1440 avec M=1440 essais. Si λ est autour, disons 10, alors nous pouvons être assez confiants qu'aucune minute n'a eu deux événements.
Bien sûr, cela va mieux si nous passons aux secondes. Nous examinons maintenantM=86400 événements chacun avec la faible probabilité λ/86400 .
Quelle que soit la taille de votreλ , je peux éventuellement choisir un Δt suffisamment petit pour qu'il soit très probable qu'aucun événement ne se produise dans le même intervalle. Alors la distribution binomiale correspondant à cette Δt sera une excellente correspondance avec la vraie distribution de Poisson.
La seule raison pour laquelle ils ne sont pas exactement les mêmes est qu'il existe une probabilité non nulle que deux événements se produisent dans le même intervalle de temps. Mais étant donné qu'il n'y a que autour des événementsλ et qu'ils sont répartis dans un certain nombre de compartiments beaucoup plus grands que λ , il est peu probable que deux d'entre eux se trouvent dans le même compartiment.
En d' autres termes, la distribution binomiale tend à la distribution de Poisson commeM→∞ si la probabilité de réussite est p=λ/M .
la source
question 1
Rappelons la définition de la distribution binomiale:
Comparez cela à la définition de la distribution de Poisson:
La différence substantielle entre les 2 est que le binôme est dans essais, Poisson est sur une période de temps t . Comment la limite peut-elle se produire intuitivement?n t
Disons que vous devez continuer à exécuter les essais de Bernoulli pour l'éternité. De plus, vous exécutez par minute. Par minute, vous comptez chaque succès. Donc, pour toute l'éternité, vous exécutez un processus B i n ( p , 30 ) toutes les minutes. Sur 24 heures, vous avez un B i n ( p , 43200 ) .n=30 Bin(p,30) Bin(p,43200)
Lorsque vous êtes fatigué, on vous demande "combien de succès ont eu lieu entre 18h00 et 19h00?". Votre réponse peut être de , c'est-à-dire que vous fournissez les succès moyens en une heure. Pour moi, cela ressemble beaucoup au paramètre Poisson λ .30∗60∗p λ
la source
Question 2)
Donc, en prenant la limite pour N fixeN
la source
Le problème est que votre caractérisation du Poisson comme cas limite de la distribution binomiale n'est pas tout à fait correcte comme indiqué .
Le Poisson est un cas limite du binôme lorsque: La deuxième partie est importante. Si p reste fixe, la première condition implique que le taux augmentera également sans limite.
Ce que la distribution de Poisson suppose, c'est que les événements sont rares . Ce que nous entendons par "rare" n'est pas que le taux d'événements est petit - en effet, un processus de Poisson peut avoir une très haute intensité mais plutôt, que la probabilité qu'un événement se produise à tout instant dans le temps [ t , t + d t ) est extrêmement petit. Ceci contraste avec un modèle binomial où la probabilité p d'un événement (par exemple "succès") est fixée pour un essai donné.λ [t,t+dt) p
Pour illustrer, supposons que nous modélisons une série de essais de Bernoulli indépendants avec chacun une probabilité de succès p , et nous regardons ce qui arrive à la distribution du nombre de succès X comme M → ∞ . Pour tout N aussi grand que nous le souhaitons, et peu importe la taille de p , le nombre de succès escomptés E [ X ] = M p > N pour M > N / pM p X M→∞ N p E[X]=Mp>N M>N/p . En d'autres termes, quelle que soit la probabilité de réussite, vous pouvez éventuellement obtenir un nombre moyen de succès aussi important que vous le souhaitez si vous effectuez suffisamment d'essais. Ainsi, (ou, simplement dire « M est grand ») ne suffit pas pour justifier un modèle de Poisson X .M→∞ M X
Il n'est pas difficile d'établir algébriquement comme cas limite de Pr [ X = x ] = ( M
la source
Je ne peux qu'essayer une réponse partielle et il s'agit de l'intuition de la question 2, pas d'une preuve rigoureuse.
The binomial coefficient gives you the number of samples of sizeN , from M , without replacement and without order.
Here thoughM becomes so large that you may approximate the scenario as sampling with replacement in which case you get
MN ordered samples. If you don't care about the order of the N objects chosen this reduces to MN/N! because those N objects
can be ordered in N! ways.
la source
I think this is the best example that intuitively explains how binomial distribution converges to normal with large number of balls. Here, each ball has equal probability of falling on either side of the peg in each layer and all the balls have to face same number of pegs. It can be easily seen that as the number of balls goes very high the distribution of balls in different sections will be like normal distribution.
My answer to your question 2 is same as the answer given by Lukasz.
la source