J'ai deux proportions (par exemple, le taux de clics (CTR) sur un lien dans une disposition de contrôle et le CTR sur un lien dans une disposition expérimentale), et je veux calculer un intervalle de confiance de 95% autour du rapport de ces proportions.
Comment puis-je faire cela? Je sais que je peux utiliser la méthode delta pour calculer la variance de ce rapport, mais je ne sais pas quoi faire à part cela. Que dois-je utiliser comme point médian de l'intervalle de confiance (mon rapport observé ou le rapport attendu qui est différent) et combien d'écarts-types autour de ce rapport dois-je prendre?
Dois-je utiliser la variance de la méthode delta? (Je ne me soucie pas vraiment de la variance, juste un intervalle de confiance.) Dois-je utiliser le théorème de Fieller , en utilisant le cas 1 (puisque je fais des proportions, je suppose que je satisfait l'exigence de distribution normale)? Dois-je simplement calculer un échantillon bootstrap?
la source
Réponses:
La manière standard de le faire en épidémiologie (où un rapport de proportions est généralement appelé un rapport de risque ) consiste à commencer par transformer le rapport en logarithme, à calculer un intervalle de confiance sur l'échelle logarithmique en utilisant la méthode delta et en supposant une distribution normale, puis retransformez. Cela fonctionne mieux dans des tailles d'échantillons modérées que l'utilisation de la méthode delta sur l'échelle non transformée, bien qu'elle se comportera toujours mal si le nombre d'événements dans l'un ou l'autre groupe est très faible, et échoue complètement s'il n'y a aucun événement dans l'un ou l'autre groupe.
S'il y a et x 2 succès dans les deux groupes sur des totaux n 1 et n 2 , alors l'estimation évidente pour le rapport des proportions est θ = x 1 / n 1x1 x2 n1 n2
En utilisant la méthode delta et en supposant que les deux groupes sont indépendants et les succès sont distribués binomiale, vous pouvez montrer que En prenant la racine carrée de ce qui donne l'erreur type SE ( log θ ) . En supposant que log θ est normalement distribué, un intervalle de confiance de 95% pour log θ
la source