Intervalle de confiance pour l'échantillonnage de Bernoulli

42

J'ai un échantillon aléatoire de variables aléatoires de Bernoulli , où sont iidrv et , et est un paramètre inconnu.X i P ( X i = 1 ) = p pX1...XNXiP(Xi=1)=pp

De toute évidence, on peut trouver une estimation pour : .p : = ( X 1 + + X N ) / Npp^:=(X1++XN)/N

Ma question est comment puis-je construire un intervalle de confiance pour ?p

l'amibe dit de réintégrer Monica
la source
2
Wikipédia contient des informations sur le calcul des intervalles de confiance pour l'échantillonnage de bernoulli .

Réponses:

52
  • Si la moyenne, , n’est pas proche de ou , et si la taille de l’échantillon est suffisamment grande (c.-à-d. et , la confiance l’intervalle peut être estimé par une distribution normale et l’intervalle de confiance ainsi construit: 10nn p >5n(1 - p )>5p^10nnp^>5n(1p^)>5

    p^±z1α/2p^(1p^)n
  • Si et , l' intervalle de confiance de est approximativement (Javanovic et Levy, 1997) ; l'inverse est valable pour . La référence aborde également l'utilisation de et (cette dernière intégrant des informations antérieures).p^=0n>3095%[0,3n] p^=1n+1n+b

  • Sinon, Wikipedia fournit une bonne vue d'ensemble et pointe vers Agresti et Couli (1998) et Ross (2003) pour des détails sur l'utilisation d'estimations autres que l'approximation normale, le score de Wilson, les intervalles de Clopper-Pearson ou Agresti-Coull. Celles-ci peuvent être plus précises lorsque les hypothèses ci-dessus concernant et ne sont pas satisfaites.np^

R fournit des fonctions binconf {Hmisc}et binom.confint {binom}qui peut être utilisé de la manière suivante:

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

Alan Agresti; Coull, Brent A. (1998). "L'approche approximative est meilleure que" exacte "pour l'estimation d'intervalle de proportions binomiales". Le statisticien américain 52: 119-126.

Jovanovic, BD et PS Levy, 1997. La règle de trois. Le statisticien américain Vol. 51, n ° 2, p. 137-139

Ross, TD (2003). "Intervalles de confiance précis pour l'estimation de la proportion binomiale et du taux de Poisson". Computers in Biology and Medicine 33: 509–531.

David LeBauer
la source
3
(+1) Bonne réponse. Cela deviendra une référence pour des questions similaires à l'avenir, je pense. Cependant, l'affichage croisé est inhabituel; En fait, je pense que cela est mal vu, car cela gâche de nombreux aspects du système de feedback / référencement / threading / commentaire. Envisagez de supprimer l'une des copies et de la remplacer par un lien dans un commentaire.
whuber
@ Whuber merci pour les commentaires. J'ai enlevé l'autre copie.
David LeBauer
Dans la première formule, que sont z1 et alpha?
Cirdec
J'ai trouvé la réponse à ma propre question: est le centile de la distribution normale standard et est le centile d'erreur. en.wikipedia.org/wiki/Binomial_proportion_confidence_intervalz1α/21α/2α
Cirdec
Cela devrait-il être sur l'intervalle de confiance pour le deuxième point? 3/n
Juan A. Navarro
7

Intervalle de confiance de vraisemblance maximale

L’approximation normale de l’échantillon de Bernoulli repose sur une taille d’échantillon relativement grande et des proportions d’échantillon éloignées des queues. L'estimation du maximum de vraisemblance se concentre sur les probabilités transformées en log, ce qui fournit des intervalles efficaces et non symétriques pour qu'il convient d'utiliser.p

Définissez les cotes du journal commeβ^0=log(p^/(1p^))

Un IC 1- pour est donné par:αβ0

CI(β0)α=β^0±Zα/21/(np^(1p^)

Et ceci est transformé en un intervalle (non symétrique) pour avec:p

CI(p)α=1/(1+exp(CI(β0)α)

Cet IC présente l'avantage supplémentaire que les proportions se situent dans l'intervalle compris entre 0 et 1 et qu'il est toujours plus étroit que l'intervalle normal tout en maintenant le niveau correct. Vous pouvez l'obtenir très facilement dans R en spécifiant:

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

Intervalles de confiance binomiaux exacts

Dans les petits échantillons, l'approximation normale de la MLE - bien que meilleure que l'approximation normale de la proportion de l'échantillon - peut ne pas être fiable. C'est bon. peut être pris pour suivre une densité binomiale . Les limites de peuvent être trouvées en prenant les 2,5ème et 97,5ème centiles de cette distribution.Y=np^(n,p)p^

CIα=(Fp^1(0.025),Fp^1(0.975))

Rarement, un intervalle de confiance binomial exact peut être obtenu manuellement pour utilisant des méthodes de calcul.p

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

Intervalles de confiance non biaisés médians

Et si est égal à 0 ou 1 exactement, un estimateur médian non biaisé peut être utilisé pour obtenir des estimations d'intervalle non singulier basées sur la fonction de probabilité médiane non biaisée. Vous pouvez trivialement prendre la limite inférieure du cas tout-0 comme 0 WLOG. La limite supérieure est toute proportion qui satisfait:pp1α/2

p1α/2:P(Y=0)/2+P(Y>y)>0.975

C'est aussi une routine de calcul.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

Les deux dernières méthodes sont implémentées dans le epitoolspackage dans R.

AdamO
la source