Pourquoi nous n'utilisons pas la distribution t pour construire un intervalle de confiance pour une proportion?

18

Pour calculer l'intervalle de confiance (IC) pour la moyenne avec un écart-type de population inconnu (sd), nous estimons l'écart-type de la population en utilisant la distribution t. Notamment, CI=X¯±Z95%σX¯σX¯=σn . Mais parce que, nous n'avons pas d'estimation ponctuelle de l'écart type de la population, nous estimons par l'approximationCI=X¯±t95%(se)se=sn

Contrastingly, pour la proportion de la population, pour le calcul de la CI, nous rapprochons en CI=p^±Z95%(se)se=p^(1p^)n fourninp^15etn(1p^)15

Ma question est la suivante: pourquoi nous contentons-nous d'une distribution standard de la proportion de la population?

Abhijit
la source
1
Mon intuition dit que c'est parce que pour obtenir l'erreur standard de la moyenne, vous avez une deuxième inconnue, σ , qui est estimée à partir de l'échantillon pour terminer le calcul. L'erreur standard pour la proportion n'implique aucune inconnue supplémentaire.
Reinstate Monica - G. Simpson
@GavinSimpson Semble convaincant. En fait, la raison pour laquelle nous avons introduit la distribution t est de compenser l'erreur introduite pour compenser l'approximation de l'écart-type.
Abhijit
3
Je trouve cela peu convaincant en partie parce que la distribution provient de l' indépendance de la variance de l'échantillon et de la moyenne de l'échantillon dans les échantillons d'une distribution normale, tandis que pour les échantillons d'une distribution binomiale, les deux quantités ne sont pas indépendantes. t
whuber
@Abhijit Certains manuels utilisent une distribution t comme approximation pour cette statistique (sous certaines conditions) - ils semblent utiliser n-1 comme df. Bien que je n'aie pas encore vu un bon argument formel pour cela, l'approximation semble souvent fonctionner assez bien; pour les cas que j'ai vérifiés, elle est généralement légèrement meilleure que l'approximation normale (mais pour cela il y a un argument asymptotique solide qui manque à l'approximation t). [Edit: mes propres chèques étaient plus ou moins similaires à ceux des spectacles whuber; la différence entre le z et le t étant bien plus petite que leur divergence par rapport à la statistique]
Glen_b -Reinstate Monica
1
Il se peut qu'il y ait un argument possible (peut-être basé sur les premiers termes d'une expansion en série par exemple) qui pourrait établir que le t devrait presque toujours être meilleur, ou peut-être qu'il devrait être meilleur dans certaines conditions spécifiques, mais je je n'ai vu aucun argument de ce genre. Personnellement, je m'en tiens généralement au z mais je ne m'inquiète pas si quelqu'un utilise un t.
Glen_b -Reinstate Monica

Réponses:

20

Les distributions normales de Student normales et de Student sont des approximations plutôt médiocres de la distribution de

Z=p^pp^(1p^)/n

pour les petits n, si pauvres que l'erreur éclipse les différences entre ces deux distributions.

Voici une comparaison des trois distributions ( en omettant les cas où p ou 1 - p sont nuls, où le rapport est défini) pour n = 10 , p = 1 / 2 :p^1p^n=10,p=1/2:

Figure 1

La distribution "empirique" est celle de Z, qui doit être discret parce que les estimations p sont limitées à l'ensemble fini { 0 , 1 / n , 2 / n , ... , n / n } .p^{0,1/n,2/n,,n/n}.

La distribution t semble faire un meilleur travail d'approximation.

Pour n=30 et p=1/2, vous pouvez voir la différence entre les distributions normales standard et t de Student est tout à fait négligeable:

Figure 2

Parce que la distribution Student t est plus compliquée que la normale standard (c'est vraiment une famille entière de distributions indexées par les "degrés de liberté", nécessitant auparavant des chapitres entiers de tableaux plutôt qu'une seule page), la normale standard est utilisée pour presque tous approximations.

whuber
la source
2
Réponse de qualité. +1
Demetri Pananos
10

La justification de l'utilisation de la distribution t dans l'intervalle de confiance pour une moyenne repose sur l'hypothèse que les données sous-jacentes suivent une distribution normale, ce qui conduit à une distribution chi carré lors de l'estimation de l'écart-type, et donc x¯μs/ntn1. Il s'agit d'un résultat exact sous l'hypothèse que les données sont exactement normales, ce qui conduit à des intervalles de confiance avec une couverture exacte de 95% lorsque vous utiliseztet une couverture inférieure à 95% si vous utilisezz.

Dans le cas d'intervalles Wald pour les proportions, vous obtenez seulement la normalité asymptotique pour p - pp^pp^(1p^)/noù n est assez grand, qui dépend dep. La probabilité de couverture réelle de la procédure, étant donné que les décomptes de succès sous-jacents sont discrets, est parfois inférieure et parfois supérieure à la probabilité de couverture nominale de 95% selon l'inconnup. Il n'y a donc aucune justification théorique à l'utilisation det, et rien ne garantit que d'un point de vue pratique, l'utilisation detuniquement pour élargir les intervalles aiderait réellement à atteindre une couverture nominale de 95%.

La probabilité de couverture peut être calculée exactement, bien qu'il soit assez simple de la simuler. L'exemple suivant montre la probabilité de couverture simulée lorsque n = 35. Il démontre que la probabilité de couverture pour l'utilisation de l'intervalle z est généralement légèrement inférieure à 0,95, tandis que la probabilité de couverture pour l'intervalle t peut généralement être plus proche de 0,95 en moyenne selon vos croyances antérieures sur les valeurs plausibles de p .

entrez la description de l'image ici

entrez la description de l'image ici

jsk
la source
3
+1 Ce sont d'excellentes illustrations des affirmations que j'ai faites (basées uniquement sur l'inspection des graphiques des CDF, plutôt que sur des démonstrations rigoureuses) concernant la précision relative des Student t et des IC normaux.
whuber
6

AdamO et jsk donnent tous deux une excellente réponse.

Je voudrais essayer de répéter leurs points avec un anglais simple:

Lorsque la distribution sous-jacente est normale, vous savez qu'il y a deux paramètres: la moyenne et la variance . La distribution T offre un moyen de faire une inférence sur la moyenne sans connaître la valeur exacte des variances. Au lieu d'utiliser les écarts réels, seuls échantillons moyens et échantillons écarts sont nécessaires. Parce que c'est une distribution exacte, vous savez exactement ce que vous obtenez. En d'autres termes, la probabilité de couverture est correcte. L'utilisation de t reflète simplement le désir de contourner la variance inconnue de la population.

Cependant, lorsque nous faisons l'inférence sur la proportion, la distribution sous-jacente est binomiale. Pour obtenir la distribution exacte, vous devez regarder les intervalles de confiance de Clopper-Pearson. La formule que vous fournissez est la formule de l'intervalle de confiance de Wald. Il utilise la distribution normale pour approximer la distribution binomiale, car la distribution normale est la distribution limite de la distribution binomiale. Dans ce cas, comme vous ne faites qu'approximation, le niveau supplémentaire de précision de l'utilisation des statistiques t devient inutile, tout se résume à des performances empiriques. Comme suggéré dans la réponse de BruceET, l'Agresti-Coull est aujourd'hui une formule simple et standard pour une telle approximation.

Mon professeur, le Dr Longnecker de Texas A&M, a fait une simulation simple pour illustrer le fonctionnement des différentes approximations par rapport au CI binomial.

Comparaison de divers IC à 95% pour la proportion

De plus amples informations peuvent être trouvées dans l'article Estimation d'intervalle pour une proportion binomiale en science statistique , vol. 16, pp.101-133, par L. Brown, T. Cai et A. DasGupta. Fondamentalement, l'AC CI est recommandé pour n> = 40.

entrez la description de l'image ici

Qilin Wang
la source
3

X1,X2,XnμσH0:μ=μ0Ha:μμ0Z=X¯μ0σ/n.H0ZNorm(0,1),H0|Z|1.96.

μμ0μ.X¯±1.96σ/n,±1.96

σS,T=X¯μ0S/n.TnSσ.

TT(ν=n1),n1σX¯±tS/n,±tT(n1).

n>30,t21.96.Sσσn>30,

Xnp^=X/np.H0:p=p0Ha:pp>0,Z=p^p0p0(1p0)/n.H0,ZaprxNorm(0,1).H0|Z|1.96.

p,p^±1.96p(1p)n.pn,p^p.p^±1.96p^(1p^)n.n

nˇ=n+4pˇ=(X+2)/nˇpˇ±1.96pˇ(1pˇ)nˇ.

μp

Sσσ

p^pp^p.pn.

BruceET
la source
2

σ

σ

σ

σ

Il convient également de noter que cette question reflète la réponse demandée par cette question .

AdamO
la source
2
The pseudonym Gosset published under was "Student" not "Student-T". He also didn't actually come up with the standard t-distribution itself, nor was the statistic he dealt with actually the t-statistic (he did equivalent things, essentially dealing with a scaled t, but almost all the formalism we have now comes from Fisher's work). Fisher wrote the statistic the way we write it. Fisher called it the t. Fisher formally derived the distribution of the statistic (showing Gosset's combination of algebra, intuition and accompanying simulation-argument about his version of the statistic was correct)
Glen_b -Reinstate Monica
1
See Gosset's 1908 paper here: archive.org/details/biometrika619081909pear/page/n13 - there's also a nice readable pdf of the paper redone in LaTeX here. Note that this is out of copyright since it comes more than a few years before Steamboat Willie.
Glen_b -Reinstate Monica
@Glen_b Merci! J'ai supprimé les anecdotes apparemment erronées de l'histoire.
AdamO