Je lisais un manuel de statistiques d'entrée de gamme. Dans le chapitre sur l'estimation du maximum de vraisemblance de la proportion de succès dans les données à distribution binomiale, il a donné une formule pour calculer un intervalle de confiance, puis mentionné nonchalamment
Considérez sa probabilité de couverture réelle, c'est-à-dire la probabilité que la méthode produise un intervalle qui capture la vraie valeur du paramètre. Cela peut être un peu inférieur à la valeur nominale.
Et poursuit en suggérant de construire un "intervalle de confiance" alternatif, qui contient vraisemblablement la probabilité de couverture réelle.
J'ai été confronté pour la première fois à l'idée d'une probabilité de couverture nominale et réelle. En parcourant de vieilles questions ici, je pense que je l'ai compris: il y a deux concepts différents que nous appelons probabilité, le premier étant la probabilité qu'un événement qui ne s'est pas encore produit produise un résultat donné, et le second est la probabilité que la supposition d'un agent observateur sur le résultat d'un événement déjà arrivé soit vraie. Il semble également que les intervalles de confiance ne mesurent que le premier type de probabilité et que ce que l'on appelle des «intervalles crédibles» mesurent le deuxième type de probabilité. J'ai supposé sommairement que les intervalles de confiance sont ceux qui calculent la «probabilité de couverture nominale» et les intervalles crédibles sont ceux qui couvrent la «probabilité de couverture réelle».
Mais j'ai peut-être mal interprété le livre (il n'est pas tout à fait clair si les différentes méthodes de calcul qu'il propose sont pour un intervalle de confiance et un intervalle crédible, ou pour deux types différents d'intervalle de confiance), ou les autres sources auxquelles j'ai l'habitude de venir ma compréhension actuelle. Surtout un commentaire que j'ai eu sur une autre question,
Intervalles de confiance pour fréquentiste, crédible pour bayésien
m'a fait douter de mes conclusions, car le livre ne décrivait pas une méthode bayésienne dans ce chapitre.
Veuillez donc préciser si ma compréhension est correcte ou si j'ai fait une erreur logique en cours de route.
Réponses:
En général, la probabilité de couverture réelle ne sera jamais égale à la probabilité nominale lorsque vous travaillez avec une distribution discrète.
L'intervalle de confiance est défini en fonction des données. Si vous travaillez avec la distribution binomiale, il n'y a qu'un nombre fini de résultats possibles ( pour être précis), donc il n'y a qu'un nombre fini d'intervalles de confiance possibles. Puisque le paramètre est continu, il est assez facile de voir que la probabilité de couverture (qui est une fonction de ) ne peut pas faire mieux qu'être d'environ 95% (ou autre).n+1 p p
Il est généralement vrai que les méthodes basées sur le CLT auront des probabilités de couverture inférieures à la valeur nominale, mais d'autres méthodes peuvent en fait être plus conservatrices.
la source
Cela n'a rien à voir avec les intervalles crédibles bayésiens vs les intervalles de confiance fréquentiste. Un intervalle de confiance à 95% (par exemple) est défini comme donnant une couverture d' au moins 95% quelle que soit la valeur réelle du paramètre . Ainsi, lorsque la couverture nominale est de 95%, la couverture réelle peut être de 97% lorsque , 96,5% lorsque , mais pour aucune valeur de elle est inférieure à 95%. Le problème (c'est-à-dire un écart entre la couverture nominale et réelle) se pose avec des distributions discrètes comme le binôme.π π=π1 π=π2 π
À titre d'illustration, considérons l'observation de succès de essais binomiaux avec une probabilité de succès inconnue : La première colonne indique les valeurs observées possibles de . La seconde montre la limite de confiance exacte † supérieure ‡x n π
La couverture nominale n'est atteinte que lorsque les valeurs réelles des paramètres coïncident avec les limites supérieures pouvant être obtenues.
[Je viens de relire votre question et j'ai remarqué que l'auteur dit que le réel peut être inférieur à la probabilité de couverture nominale. Je pense donc qu'ils parlent d'une méthode approximative pour calculer l'intervalle de confiance, bien que ce que j'ai dit ci-dessus soit toujours valable. Le graphique pourrait suggérer de rapporter un niveau de confiance moyen d'environ mais — une moyenne sur les valeurs d'un paramètre inconnu?]98%
† Exact en ce sens que la couverture réelle n'est jamais inférieure à la couverture nominale pour toute valeur de , et égale à celle-ci pour certaines valeurs de - @ le sens de Unwisdom, pas @ Stephane.π π
‡ Les intervalles avec des limites supérieures et inférieures sont bien sûr plus couramment utilisés; mais un peu plus compliqué à expliquer, & il n'y a qu'un seul intervalle exact à considérer avec juste une borne supérieure. (Voir Blaker (2000), «Courbes de confiance et intervalles de confiance exacts améliorés pour les distributions discrètes», Revue canadienne de statistique , 28 , 4 et les références.)
la source
Je pense que la différence concerne en fait l'utilisation d'approximations faites lors du calcul des intervalles de confiance. Par exemple, si nous utilisons l'IC assez standard de
Nous pouvons appeler cela un "intervalle de confiance à 95%". Cependant, est-ce généralement le cas que plusieurs approximations sont faites ici. Si nous ne faisons pas d'approximations, nous pouvons calculer la couverture réelle. Une situation typique est la sous-estimation de l'erreur-type. Ensuite, les intervalles sont trop étroits pour capturer la vraie valeur avec une probabilité de 95%. Ils pourraient ne capturer la vraie valeur qu'avec une probabilité de 85%. La probabilité de "couverture réelle" peut être calculée en utilisant une simulation de Monte-Carlo d'une certaine sorte (par exemple, générer ensembles de données d'échantillonnage en utilisant une valeur vraie choisie, puis calculer un IC de 95% pour chacun, et constater que contenait réellement la valeur vraie).1000 850
la source