Pour calculer l'intervalle de confiance (IC) pour la moyenne avec un écart-type de population inconnu (sd), nous estimons l'écart-type de la population en utilisant la distribution t. Notamment, où . Mais parce que, nous n'avons pas d'estimation ponctuelle de l'écart type de la population, nous estimons par l'approximationoù
Contrastingly, pour la proportion de la population, pour le calcul de la CI, nous rapprochons en où fourniet
Ma question est la suivante: pourquoi nous contentons-nous d'une distribution standard de la proportion de la population?
Réponses:
Les distributions normales de Student normales et de Student sont des approximations plutôt médiocres de la distribution de
pour les petitsn, si pauvres que l'erreur éclipse les différences entre ces deux distributions.
Voici une comparaison des trois distributions ( en omettant les cas où p ou 1 - p sont nuls, où le rapport est défini) pour n = 10 , p = 1 / 2 :p^ 1−p^ n=10,p=1/2:
La distribution "empirique" est celle deZ, qui doit être discret parce que les estimations p sont limitées à l'ensemble fini { 0 , 1 / n , 2 / n , ... , n / n } .p^ {0,1/n,2/n,…,n/n}.
La distributiont semble faire un meilleur travail d'approximation.
Pourn=30 et p=1/2, vous pouvez voir la différence entre les distributions normales standard et t de Student est tout à fait négligeable:
Parce que la distribution Student t est plus compliquée que la normale standard (c'est vraiment une famille entière de distributions indexées par les "degrés de liberté", nécessitant auparavant des chapitres entiers de tableaux plutôt qu'une seule page), la normale standard est utilisée pour presque tous approximations.
la source
La justification de l'utilisation de la distribution t dans l'intervalle de confiance pour une moyenne repose sur l'hypothèse que les données sous-jacentes suivent une distribution normale, ce qui conduit à une distribution chi carré lors de l'estimation de l'écart-type, et doncx¯−μs/n√∼tn−1 . Il s'agit d'un résultat exact sous l'hypothèse que les données sont exactement normales, ce qui conduit à des intervalles de confiance avec une couverture exacte de 95% lorsque vous utilisezt et une couverture inférieure à 95% si vous utilisezz .
Dans le cas d'intervalles Wald pour les proportions, vous obtenez seulement la normalité asymptotique pour p - pp^−pp^(1−p^)/n√ où n est assez grand, qui dépend dep. La probabilité de couverture réelle de la procédure, étant donné que les décomptes de succès sous-jacents sont discrets, est parfois inférieure et parfois supérieure à la probabilité de couverture nominale de 95% selon l'inconnup . Il n'y a donc aucune justification théorique à l'utilisation det , et rien ne garantit que d'un point de vue pratique, l'utilisation det uniquement pour élargir les intervalles aiderait réellement à atteindre une couverture nominale de 95%.
La probabilité de couverture peut être calculée exactement, bien qu'il soit assez simple de la simuler. L'exemple suivant montre la probabilité de couverture simulée lorsque n = 35. Il démontre que la probabilité de couverture pour l'utilisation de l'intervalle z est généralement légèrement inférieure à 0,95, tandis que la probabilité de couverture pour l'intervalle t peut généralement être plus proche de 0,95 en moyenne selon vos croyances antérieures sur les valeurs plausibles de p .
la source
AdamO et jsk donnent tous deux une excellente réponse.
Je voudrais essayer de répéter leurs points avec un anglais simple:
Lorsque la distribution sous-jacente est normale, vous savez qu'il y a deux paramètres: la moyenne et la variance . La distribution T offre un moyen de faire une inférence sur la moyenne sans connaître la valeur exacte des variances. Au lieu d'utiliser les écarts réels, seuls échantillons moyens et échantillons écarts sont nécessaires. Parce que c'est une distribution exacte, vous savez exactement ce que vous obtenez. En d'autres termes, la probabilité de couverture est correcte. L'utilisation de t reflète simplement le désir de contourner la variance inconnue de la population.
Cependant, lorsque nous faisons l'inférence sur la proportion, la distribution sous-jacente est binomiale. Pour obtenir la distribution exacte, vous devez regarder les intervalles de confiance de Clopper-Pearson. La formule que vous fournissez est la formule de l'intervalle de confiance de Wald. Il utilise la distribution normale pour approximer la distribution binomiale, car la distribution normale est la distribution limite de la distribution binomiale. Dans ce cas, comme vous ne faites qu'approximation, le niveau supplémentaire de précision de l'utilisation des statistiques t devient inutile, tout se résume à des performances empiriques. Comme suggéré dans la réponse de BruceET, l'Agresti-Coull est aujourd'hui une formule simple et standard pour une telle approximation.
Mon professeur, le Dr Longnecker de Texas A&M, a fait une simulation simple pour illustrer le fonctionnement des différentes approximations par rapport au CI binomial.
De plus amples informations peuvent être trouvées dans l'article Estimation d'intervalle pour une proportion binomiale en science statistique , vol. 16, pp.101-133, par L. Brown, T. Cai et A. DasGupta. Fondamentalement, l'AC CI est recommandé pour n> = 40.
la source
la source
Il convient également de noter que cette question reflète la réponse demandée par cette question .
la source