Pourquoi ne pas utiliser la distribution T pour estimer la moyenne lorsque l'échantillon est grand?

17

Les cours de statistiques de base suggèrent souvent d'utiliser une distribution normale pour estimer la moyenne d'un paramètre de population lorsque la taille de l'échantillon n est grande (généralement supérieure à 30 ou 50). La distribution T de Student est utilisée pour des échantillons de plus petite taille afin de tenir compte de l'incertitude de l'écart-type de l'échantillon. Lorsque la taille de l'échantillon est grande, l'écart-type de l'échantillon donne de bonnes informations sur l'écart-type de la population, permettant une estimation de la distribution normale. Je comprends ça.

Mais pourquoi utiliser une estimation lorsque vous pouvez obtenir votre intervalle de confiance exactement? Quelle que soit la taille de l'échantillon, quel est l'intérêt d'utiliser la distribution normale s'il ne s'agit que d'une estimation de quelque chose que vous pouvez obtenir exactement avec la distribution en T?

Pertinax
la source
@Glen_b Oui, ce serait des estimateurs d'intervalle. Concernant ces intervalles: "Vous devez utiliser la table de distribution t lorsque vous rencontrez des problèmes lorsque l'écart-type de la population (σ) n'est pas connu et que la taille de l'échantillon est petite (n <30)" (d'après web.pdx.edu/~stipakb/ téléchargement / PA551 / NormalVersusTdistribution.doc). Pourquoi les gens n'utilisent-ils pas la distribution T tout le temps lorsque l'écart-type de la population n'est pas connu (même lorsque n> 30)?
Pertinax

Réponses:

15

Juste pour clarifier la relation avec le titre, nous n'utilisons pas la distribution t pour estimer la moyenne (dans le sens d'une estimation ponctuelle au moins), mais pour construire un intervalle pour celle-ci.

Mais pourquoi utiliser une estimation lorsque vous pouvez obtenir votre intervalle de confiance exactement?

C'est une bonne question (tant que nous n'insistons pas trop sur «exactement», car les hypothèses pour qu'il soit exactement t-distribué ne tiendront pas réellement).

"Vous devez utiliser la table de distribution t lorsque vous rencontrez des problèmes lorsque l'écart-type de la population (σ) n'est pas connu et que la taille de l'échantillon est petite (n <30)"

Pourquoi les gens n'utilisent-ils pas la distribution T tout le temps lorsque l'écart-type de la population n'est pas connu (même lorsque n> 30)?

Je considère les conseils comme - au mieux - potentiellement trompeurs. Dans certaines situations, la distribution t doit toujours être utilisée lorsque les degrés de liberté sont beaucoup plus importants que cela.

Lorsque la normale est une approximation raisonnable, cela dépend de diverses choses (et dépend donc de la situation). Cependant, comme (avec les ordinateurs), il n'est pas du tout difficile d'utiliser simplement le t , même si les df sont très grands, vous devez vous demander pourquoi vous devez vous soucier de faire quelque chose de différent à n = 30.

Si les tailles d'échantillon sont vraiment grandes, cela ne fera pas de différence notable avec un intervalle de confiance, mais je ne pense pas que n = 30 soit toujours suffisamment proche de «vraiment grand».


Il y a une circonstance dans laquelle il peut être judicieux d'utiliser la normale plutôt que le t - c'est quand vos données ne remplissent clairement pas les conditions pour obtenir une distribution t, mais vous pouvez toujours plaider pour la normalité approximative de la moyenne (si n est assez grand). Cependant, dans ces circonstances, le t est souvent une bonne approximation dans la pratique et peut être quelque peu «plus sûr». [Dans une situation comme celle-là, je pourrais être enclin à enquêter via la simulation.]

Glen_b -Reinstate Monica
la source
2
J'ai lu quelque part dans ce document que est bon quand α = 5 % . Mais je ne suis pas sûr que ce soit suffisant. n=30α=5%
Stéphane Laurent
1
@ StéphaneLaurent Pour la plupart des cas, cela devrait être bien à 5%, mais de tels jugements sont très à la discrétion de l'individu. Il y a des situations - je n'en ai rencontré qu'une aujourd'hui - où ce niveau d'erreur peut être suffisant pour avoir de l'importance.
Glen_b -Reinstate Monica
2
@ StéphaneLaurent Vous pourriez obtenir un aperçu décent de Johnson, VE (2013). Normes révisées pour les preuves statistiques . Actes de l'Académie nationale des sciences , 110 (48): 19313–19317. Cet article s'inscrit dans le post- pourquoi la plupart des résultats de recherche publiés sont une fausse critique de la recherche ( à la manière dont la science se trompe )
Alexis
4
@ StéphaneLaurent Votre article répond à ma question. Pour mémoire, une traduction approximative de sa conclusion: "L'utilisation de la distribution normale comme approximation de la distribution t de Student est exclusivement le produit de limitations technologiques du XXe siècle. Ces limitations ont disparu avec les logiciels statistiques modernes, et il n'y a plus aucune raison d'utiliser ces approximations non conservatrices ".
Pertinax
2
@TheThunderChimp Caveat: si la variance de la population est connue (par exemple, estimation de la proportion de la population - moyenne d'une variable dichotomique), alors la normale standard ( z ) et non la distribution t est appropriée.
Alexis
7

C'est un anachronisme historique. Il y en a beaucoup dans les statistiques.

Si vous n'aviez pas d'ordinateur, il était difficile d'utiliser la distribution t et beaucoup plus facile d'utiliser une distribution normale. Une fois que la taille de l'échantillon est grande, les deux distributions deviennent similaires (la taille de «grande» est une autre question).

Jeremy Miles
la source
1
Cela semble une réponse assez superficielle pour une question plus profonde.
Alexis
2
Pas sûr de ce que vous voulez dire. Tu ne penses pas que c'est la raison? (La réponse la plus votée fait la même remarque - bien que de façon plus éloquente et élaborée.)
Jeremy Miles
1
J'ai voté contre parce que votre réponse me dit: Parce que l'histoire. Brève récapitulation de votre question.
Alexis
2
Merci de me l'avoir fait savoir - c'est plus agréable qu'un downvote anonyme dont je ne connaissais pas la raison.
Jeremy Miles
3
Historiquement, on «utilisait» ces distributions en recherchant les valeurs dans les tableaux. La seule façon dont il aurait été plus facile d'utiliser une distribution normale aurait été de ne pas avoir à choisir la colonne correspondant aux degrés de liberté. C'est à peine une préoccupation. Ce qui a limité l'utilisation, c'est qu'à un moment donné, il est peu logique d'étendre les tables à de grands degrés de liberté: les livres deviendraient trop grands.
whuber
1

ex2n

VictorZurkowski
la source
1
À quelles tailles les erreurs numériques dans l'estimation de t l' emportent-elles sur les gains de son utilisation?
jona
2
vous pouvez certainement calculer les valeurs t avec une précision arbitraire, et ainsi elles peuvent être aussi précises que les quantités auxquelles vous les comparez.
Neil G
"En d'autres termes, la valeur t" exacte "n'est pas" exacte ", et dans l'erreur d'approximation, la valeur est la même que la valeur CDF pour la normale standard." Je ne suis pas sûr que ce soit une règle empirique fiable.
shadowtalker
2
Cette réponse manque le point. Par exemple, les valeurs de la distribution normale cumulée et de la distribution cumulée de Student à-2 deviennent indiscernables dans le 16e chiffre significatif (c'est-à-dire approximativement à la double précision) seulement lorsque la taille de l'échantillon dépasse 5,9325×dix16. Cela indique que l'erreur numérique n'est un problème dans aucun problème pratique.
whuber
1
Whuber, tu as raison. J'ai mal utilisé «erreur numérique». Je voulais dire toutes les erreurs de gestion des nombres: approximation numérique des intégrales, erreurs numériques pour travailler avec une précision finie et erreurs numériques dues à la troncature. Si l'on pouvait travailler avec une précision infinie, il n'y aurait aucune justification pour remplacer la distribution t par la normale
VictorZurkowski