Correction de continuité de Yates dans l'intervalle de confiance renvoyée par le test prop.

8

Il s'agit de l'intervalle de confiance estimé par test prop.

n <- 600; x <- 276; p <- 0.40
prop.test(x, n, p, alternative="two.sided", conf.level=0.95, correct=T)
95 percent confidence interval:
 0.4196787 0.5008409 

J'ai essayé de le reproduire en lisant le code sous prop.test. Voici un moyen simplifié d'obtenir ces deux limites

ESTIMATE <- x/n
YATES <- 0.5
conf.level <- 0.95
z <- qnorm((1 + conf.level)/2)
YATES <- min(YATES, abs(x - n * p)) 
z22n <- z^2/(2 * n)
p.c <- ESTIMATE + YATES/n
(p.c + z22n + z * sqrt(p.c * (1 - p.c)/n + z22n/(2 * n)))/(1 + 2 * z22n)
[1] 0.5008409
p.c <- ESTIMATE - YATES/n
(p.c + z22n - z * sqrt(p.c * (1 - p.c)/n + z22n/(2 * n)))/(1 + 2 * z22n)
[1] 0.4196787

Pouvez-vous m'expliquer pourquoi la probabilité de réussite sous-jacente (p) est utilisée à la ligne 5? ou peut-être pourriez-vous suggérer où puis-je trouver plus d'informations sur cette correction YATES qui affecte l'ESTIMATION.

Je vous remercie

George Dontas
la source

Réponses:

3

La page d'aide indique que «la correction de continuité n'est utilisée que si elle ne dépasse pas la différence entre l'échantillon et les proportions nulles en valeur absolue». C'est ce que la ligne 5 vérifie: x/nest la proportion empirique, pest la proportion nulle. (En fait, je trouve le "si" un peu trompeur car il s'agit plutôt d'un "dans la mesure où il ne dépasse pas" lorsque l'on regarde la ligne 5.)

caracal
la source
7

Sur la deuxième question de savoir où vous pouvez trouver plus d'informations sur cette correction de continuité (attribuée à Yates dans l'aide pour prop.testmais pas dans les références ci-dessous, je pense que Yates a initialement proposé une correction de continuité uniquement au test du chi carré pour les tableaux de contingence ) :

  1. Newcombe RG. Intervalles de confiance bilatéraux pour la proportion unique: comparaison de sept méthodes. Stat Med 1998; 17 (8): 857-872. PMID: 9595616

  2. Brown LD, Cai TT, DasGupta A. Estimation d'intervalle pour une proportion binomiale (avec commentaires et duplique). Science statistique 2001; 16 (2): 101-133. doi: 10.1214 / ss / 1009213286

L'intervalle de score de Wilson corrigé en continuité est la «méthode 4» dans Newcomb. Brown et al. ne considérer que l'intervalle de score de Wilson non corrigé dans le texte principal, mais George Casella suggère d'utiliser la version corrigée de la continuité dans son Commentaire (p121), que Brown et al. discuter dans leur duplique (p130):

Casella suggère la possibilité d'effectuer une correction de continuité sur la statistique du score avant de construire un intervalle de confiance. Nous n'approuvons cette proposition d'aucune façon. Ces intervalles de Wilson «à correction de continuité» ont des propriétés de couverture extrêmement conservatrices, bien qu'elles ne soient en principe pas garanties partout conservatrices. Mais même si notre objectif, contrairement au nôtre, est de produire des intervalles conservateurs, ces intervalles seront très inefficaces à leur niveau normal par rapport à Blyth – Still ou même Clopper – Pearson.

L'intervalle «exact» de Clopper-Pearson est fourni par binom.testdans R. Je suggère d'utiliser cela plutôt que prop.testsi vous voulez un intervalle conservateur, c'est-à-dire qui garantit une couverture d' au moins 95%. Si vous préférez un intervalle qui a une couverture de près de 95% en moyenne (sur p) et sera donc souvent plus étroit, vous pouvez utiliser prop.test(…, correct=FALSE)pour donner l'intervalle de score de Wilson non corrigé.

Le manuel standard pour ces questions est Fleiss Statistical Methods for Rates and Proportions . Newcomb fait référence à l'édition originale de 1981 mais la dernière édition est la 3e (2003) . Mais je ne l'ai pas vérifié moi-même.

un arrêt
la source
2
Une autre référence pour la comparaison des IC binomiaux est Brown LD, Cai TT et DasGupta, A. (2001). Estimation d'intervalle pour une proportion binomiale. Statistical Science, 16 (2), 101-133. projecteuclid.org/euclid.ss/1009213286 (accès libre). Le binompackage de R a également le CI Agresti-Coull.
caracal