Succès des essais de Bernoulli avec différentes probabilités

11

Si 20 essais Bernoulli indépendants sont effectués chacun avec une probabilité de réussite et donc d'échec différente. Quelle est la probabilité que exactement n des 20 essais aient réussi?

Existe-t-il une meilleure façon de calculer ces probabilités plutôt que de simplement résumer les combinaisons de probabilités de réussite et d'échec?

Maha123
la source

Réponses:

12

La distribution que vous demandez est appelée la distribution binomiale de Poisson , avec pmf plutôt compliqué (voir Wikipedia pour une description plus large)

Pr(X=X)=UNEFXjeUNEpjejUNEc(1-pj)

Généralement, le problème est que vous ne pouvez pas utiliser cette équation pour un plus grand nombre d'essais (généralement lorsque le nombre d'essais dépasse ). Il existe également d'autres méthodes de calcul du pmf, par exemple des formules récursives, mais elles sont numériquement instables. Le moyen le plus simple de contourner ces problèmes est les méthodes d'approximation (décrites par exemple par Hong, 2013 ). Si nous définissonsn=30

μ=je=1npje

σ=je=1npje(1-pje)

γ=σ-3je=1npje(1-pje)(1-2pje)

alors nous pouvons approximer pmf avec la distribution de Poisson via la loi des petits nombres ou le théorème de Le Cams

Pr(X=X)μXexp(-μ)X!

mais il constate qu'en général l'approximation binomiale se comporte mieux ( Choi et Xia, 2002 )

Pr(X=X)Bjenom(n,μn)

vous pouvez utiliser une approximation normale

F(X)ϕ(X+0,5-μσ)

ou cdf peut être approximé en utilisant une approximation dite raffinée normale (Volkova, 1996)

F(X)max(0, g(X+0,5-μσ))

où .g(X)=Φ(X)+γ(1-X2)ϕ(X)6

Une autre alternative est bien sûr une simulation de Monte Carlo.

La dpbinomfonction R simple serait

dpbinom <- function(x, prob, log = FALSE,
                    method = c("MC", "PA", "NA", "BA"),
                    nsim = 1e4) {

  stopifnot(all(prob >= 0 & prob <= 1))
  method <- match.arg(method)

  if (method == "PA") {
    # poisson
    dpois(x, sum(prob), log)
  } else if (method == "NA") {
    # normal
    dnorm(x, sum(prob), sqrt(sum(prob*(1-prob))), log)
  } else if (method == "BA") {
    # binomial
    dbinom(x, length(prob), mean(prob), log)
  } else {
    # monte carlo
    tmp <- table(colSums(replicate(nsim, rbinom(length(prob), 1, prob))))
    tmp <- tmp/sum(tmp)
    p <- as.numeric(tmp[as.character(x)])
    p[is.na(p)] <- 0

    if (log) log(p)
    else p 
  }
}

La plupart des méthodes (et plus) sont également implémentées dans le package R poibin .


Chen, LHY (1974). Sur la convergence des distributions binomiales de Poisson aux distributions de Poisson. The Annals of Probability, 2 (1), 178-180.

Chen, SX et Liu, JS (1997). Applications statistiques des distributions de Poisson-Binôme et de Bernoulli conditionnelles. Statistica Sinica 7, 875-892.

Chen, SX (1993). Distribution de Poisson-Binôme, distribution conditionnelle de Bernoulli et entropie maximale. Rapport technique. Département de statistique, Harvard University.

Chen, XH, Dempster, AP et Liu, JS (1994). Échantillonnage de population finie pondéré pour maximiser l'entropie. Biometrika 81, 457-469.

Wang, YH (1993). Sur le nombre de succès dans des essais indépendants. Statistica Sinica 3 (2): 295-312.

Hong, Y. (2013). Sur le calcul de la fonction de distribution pour la distribution binomiale de Poisson. Statistiques computationnelles et analyse des données, 59, 41-51.

Volkova, AY (1996). Un raffinement du théorème central limite pour les sommes d'indicateurs aléatoires indépendants. Théorie de la probabilité et ses applications 40, 791-794.

Choi, KP et Xia, A. (2002). Approximation du nombre de succès dans des essais indépendants: binôme contre Poisson. The Annals of Applied Probability, 14 (4), 1139-1148.

Le Cam, L. (1960). Un théorème d'approximation pour la distribution binomiale de Poisson. Pacific Journal of Mathematics 10 (4), 1181–1197.

Tim
la source
0

Une approche consiste à utiliser des fonctions de génération. La solution à votre problème est le coefficient dans le polynômeXn

je=120(pjeX+1-pje).

C'est l'équivalent de programmation dynamique (temps quadratique dans le nombre de variables de Bernoulli) de faire la sommation dans la distribution binomiale de Poisson à partir de la réponse de Tim (qui serait le temps exponentiel).

Neil G
la source