La distribution que vous demandez est appelée la distribution binomiale de Poisson , avec pmf plutôt compliqué (voir Wikipedia pour une description plus large)
Pr ( X= x ) = ∑A ∈ FX∏i ∈ Apje∏j ∈ Ac( 1 - pj)
Généralement, le problème est que vous ne pouvez pas utiliser cette équation pour un plus grand nombre d'essais (généralement lorsque le nombre d'essais dépasse ). Il existe également d'autres méthodes de calcul du pmf, par exemple des formules récursives, mais elles sont numériquement instables. Le moyen le plus simple de contourner ces problèmes est les méthodes d'approximation (décrites par exemple par Hong, 2013 ). Si nous définissonsn = 30
μ = ∑i = 1npje
σ= ∑i = 1npje( 1 - pje)-----------√
γ= σ- 3∑i = 1npje( 1 - pje) ( 1 - 2 pje)
alors nous pouvons approximer pmf avec la distribution de Poisson via la loi des petits nombres ou le théorème de Le Cams
Pr ( X= x ) ≈ μXexp( - μ )x !
mais il constate qu'en général l'approximation binomiale se comporte mieux ( Choi et Xia, 2002 )
Pr ( X= x ) ≈ B i n o m ( n , μn)
vous pouvez utiliser une approximation normale
F( x ) ≈ ϕ ( x + 0,5 - μσ)
ou cdf peut être approximé en utilisant une approximation dite raffinée normale (Volkova, 1996)
F( x ) ≈ max ( 0 , g ( x + 0,5 - μσ) )
où .g( x ) = Φ ( x ) + γ( 1 - x2) ϕ ( x )6
Une autre alternative est bien sûr une simulation de Monte Carlo.
La dpbinom
fonction R simple serait
dpbinom <- function(x, prob, log = FALSE,
method = c("MC", "PA", "NA", "BA"),
nsim = 1e4) {
stopifnot(all(prob >= 0 & prob <= 1))
method <- match.arg(method)
if (method == "PA") {
# poisson
dpois(x, sum(prob), log)
} else if (method == "NA") {
# normal
dnorm(x, sum(prob), sqrt(sum(prob*(1-prob))), log)
} else if (method == "BA") {
# binomial
dbinom(x, length(prob), mean(prob), log)
} else {
# monte carlo
tmp <- table(colSums(replicate(nsim, rbinom(length(prob), 1, prob))))
tmp <- tmp/sum(tmp)
p <- as.numeric(tmp[as.character(x)])
p[is.na(p)] <- 0
if (log) log(p)
else p
}
}
La plupart des méthodes (et plus) sont également implémentées dans le package R poibin .
Chen, LHY (1974). Sur la convergence des distributions binomiales de Poisson aux distributions de Poisson. The Annals of Probability, 2 (1), 178-180.
Chen, SX et Liu, JS (1997). Applications statistiques des distributions de Poisson-Binôme et de Bernoulli conditionnelles. Statistica Sinica 7, 875-892.
Chen, SX (1993). Distribution de Poisson-Binôme, distribution conditionnelle de Bernoulli et entropie maximale. Rapport technique. Département de statistique, Harvard University.
Chen, XH, Dempster, AP et Liu, JS (1994). Échantillonnage de population finie pondéré pour maximiser l'entropie. Biometrika 81, 457-469.
Wang, YH (1993). Sur le nombre de succès dans des essais indépendants. Statistica Sinica 3 (2): 295-312.
Hong, Y. (2013). Sur le calcul de la fonction de distribution pour la distribution binomiale de Poisson. Statistiques computationnelles et analyse des données, 59, 41-51.
Volkova, AY (1996). Un raffinement du théorème central limite pour les sommes d'indicateurs aléatoires indépendants. Théorie de la probabilité et ses applications 40, 791-794.
Choi, KP et Xia, A. (2002). Approximation du nombre de succès dans des essais indépendants: binôme contre Poisson. The Annals of Applied Probability, 14 (4), 1139-1148.
Le Cam, L. (1960). Un théorème d'approximation pour la distribution binomiale de Poisson. Pacific Journal of Mathematics 10 (4), 1181–1197.