Clopper-Pearson pour les non-mathématiciens

12

Je me demandais si quelqu'un pouvait m'expliquer l'intuition au-delà du Clopper-Pearson CI pour les proportions.

Pour autant que je sache, chaque CI comprend une variance. Cependant, pour les proportions, même si ma proportion est de 0 ou 1 (0% ou 100%), l'IC Clopper-Pearson peut être calculé. J'ai essayé de regarder les formules, et je comprends que cela a quelque chose avec des centiles de la distribution binomiale et je comprends que trouver l'IC implique des itérations, mais je me suis demandé si quelqu'un pouvait expliquer la logique et le rationnel en "mots simples", ou avec un minimum de mathématiques ?

user40850
la source

Réponses:

22

Lorsque vous dites que vous êtes habitué aux intervalles de confiance contenant une expression de variance, vous pensez au cas gaussien, dans lequel les informations sur les deux paramètres caractérisant la population - l'une sa moyenne et l'autre sa variance - sont résumées par l'échantillon variance moyenne et échantillon. La moyenne de l'échantillon estime la moyenne de la population, mais la précision avec laquelle elle le fait dépend de la variance de la population, estimée à son tour par la variance de l'échantillon. La distribution binomiale, en revanche, n'a qu'un seul paramètre - la probabilité de réussite de chaque essai individuel - et toutes les informations fournies par l'échantillon sur ce paramètre sont résumées dans le nombre total. succès de tant d’essais indépendants. La variance et la moyenne de la population sont toutes deux déterminées par ce paramètre.

Vous pouvez obtenir un intervalle de confiance Clopper – Pearson à 95% (par exemple) pour le paramètre travaillant directement avec la fonction de masse de probabilité binomiale. Supposons que vous observiez succès sur essais. Le pmf estx nπxn

Pr(X=x)=(nx)πx(1π)nx

Augmentez jusqu'à ce que la probabilité de succès de ou moins tombe à 2,5%: c'est votre limite supérieure. Diminuez jusqu'à ce que la probabilité de succès de ou plus tombe à 2,5%: c'est votre limite inférieure. (Je vous suggère d'essayer de le faire si ce n'est pas clair à la lecture de ce sujet.) Ce que vous faites ici, c'est de trouver les valeurs de qui, prises comme une hypothèse nulle, entraîneraient son rejet (seulement juste) par un test bilatéral à un niveau de signification de 5%. À long terme, les bornes calculées de cette façon couvrent la vraie valeur de , quelle qu'elle soit, au moins 95% du temps.πxπxππ

Scortchi - Réintégrer Monica
la source
+1. Cela mérite peut-être une question en soi, mais je vais rapidement poser ici: pour une application particulière, je voudrais obtenir une seule mesure d'incertitude (quelque chose qui se comporte comme une erreur standard de la moyenne) pour différentes proportions. Je sais qu'il existe un certain nombre de procédures d'IC ​​binomiales, y compris Clopper-Pearson. Serait-il sensé de prendre une largeur d'un tel IC comme mesure d'incertitude? Ou peut-être largeur / 1,96 / 2 pour lui donner exactement SEM dans la limite gaussienne.
amibe dit Réintégrer Monica le
1
@amoeba: Vraisemblablement, vous pensez à de petits échantillons: (1) Vous voudriez probablement quelque chose comme des CI Blaker-Spjotvoll plutôt que des CI basés sur un test de zone de queue égale. (2) La distribution de confiance est plutôt saccadée, ce qui rendrait la largeur d'un intervalle donné désagréablement sensible à la couverture que vous stipulez.
Scortchi - Réintégrer Monica