Intervalle de confiance autour du rapport de deux proportions

20

J'ai deux proportions (par exemple, le taux de clics (CTR) sur un lien dans une disposition de contrôle et le CTR sur un lien dans une disposition expérimentale), et je veux calculer un intervalle de confiance de 95% autour du rapport de ces proportions.

Comment puis-je faire cela? Je sais que je peux utiliser la méthode delta pour calculer la variance de ce rapport, mais je ne sais pas quoi faire à part cela. Que dois-je utiliser comme point médian de l'intervalle de confiance (mon rapport observé ou le rapport attendu qui est différent) et combien d'écarts-types autour de ce rapport dois-je prendre?

Dois-je utiliser la variance de la méthode delta? (Je ne me soucie pas vraiment de la variance, juste un intervalle de confiance.) Dois-je utiliser le théorème de Fieller , en utilisant le cas 1 (puisque je fais des proportions, je suppose que je satisfait l'exigence de distribution normale)? Dois-je simplement calculer un échantillon bootstrap?

raegtin
la source
1
Vous avez un problème fondamental: la plupart des proportions ont une chance positive d'être nulle, d'où le rapport (des proportions indépendantes) a une chance positive d'être indéfini. Cela peut présenter de graves difficultés pour les méthodes approximatives (comme la méthode delta) et suggère que les approximations normales devraient être vues plus sceptiquement et testées plus rigoureusement que d'habitude.
whuber
Joseph L. Fleiss, Bruce Levin, Myunghee Cho Paik: Méthodes statistiques pour les taux et les proportions [1] examine le risque relatif, qui est un quotient de deux taux. Je n'ai pas le livre, donc je ne peux que consulter l'index des sujets et la table des matières, mais peut-être que votre bibliothèque l'a. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428
cbeleites prend en charge Monica le
Un bootstrap centile serait sûrement la meilleure méthode?
Peter Ellis

Réponses:

19

La manière standard de le faire en épidémiologie (où un rapport de proportions est généralement appelé un rapport de risque ) consiste à commencer par transformer le rapport en logarithme, à calculer un intervalle de confiance sur l'échelle logarithmique en utilisant la méthode delta et en supposant une distribution normale, puis retransformez. Cela fonctionne mieux dans des tailles d'échantillons modérées que l'utilisation de la méthode delta sur l'échelle non transformée, bien qu'elle se comportera toujours mal si le nombre d'événements dans l'un ou l'autre groupe est très faible, et échoue complètement s'il n'y a aucun événement dans l'un ou l'autre groupe.

S'il y a et x 2 succès dans les deux groupes sur des totaux n 1 et n 2 , alors l'estimation évidente pour le rapport des proportions est θ = x 1 / n 1x1x2n1n2

θ^=x1/n1x2/n2.

En utilisant la méthode delta et en supposant que les deux groupes sont indépendants et les succès sont distribués binomiale, vous pouvez montrer que En prenant la racine carrée de ce qui donne l'erreur type SE ( log θ ) . En supposant que log θ est normalement distribué, un intervalle de confiance de 95% pour log θ

Var(logθ^)=1/x11/n1+1/x21/n2.
SE(logθ^)logθ^logθest Exponentiation ce qui donne un intervalle de confiance de 95% pour le rapport des proportions thetav comme θ exp [ ± 1.96 SE ( log θ ) ] .
logθ^±1.96SE(logθ^).
θ
θ^exp[±1.96SE(logθ^)].
un arrêt
la source
5
n1n2n1p1n2p210x2=0xi=ni1/2xi1nipini4ni
@whuber: "approche de type correction de continuité" - l'utilisation de 1/2 en particulier est-elle une astuce courante? (Par opposition à d'autres petits pseudocomptes.) La façon dont vous l'avez formulée fait 1/2 son de principe d'une certaine manière =) - est-ce?
raegtin
xini
Pourquoi l'erreur standard de la racine carrée de la variance dans ce cas, et non l'écart-type?
Mikko
2
@onestop Est-ce implémenté dans n'importe quel package R?
Bogdan Vasilescu