Les cours de statistiques de base suggèrent souvent d'utiliser une distribution normale pour estimer la moyenne d'un paramètre de population lorsque la taille de l'échantillon n est grande (généralement supérieure à 30 ou 50). La distribution T de Student est utilisée pour des échantillons de plus petite taille afin de tenir compte de l'incertitude de l'écart-type de l'échantillon. Lorsque la taille de l'échantillon est grande, l'écart-type de l'échantillon donne de bonnes informations sur l'écart-type de la population, permettant une estimation de la distribution normale. Je comprends ça.
Mais pourquoi utiliser une estimation lorsque vous pouvez obtenir votre intervalle de confiance exactement? Quelle que soit la taille de l'échantillon, quel est l'intérêt d'utiliser la distribution normale s'il ne s'agit que d'une estimation de quelque chose que vous pouvez obtenir exactement avec la distribution en T?
Réponses:
Juste pour clarifier la relation avec le titre, nous n'utilisons pas la distribution t pour estimer la moyenne (dans le sens d'une estimation ponctuelle au moins), mais pour construire un intervalle pour celle-ci.
C'est une bonne question (tant que nous n'insistons pas trop sur «exactement», car les hypothèses pour qu'il soit exactement t-distribué ne tiendront pas réellement).
Je considère les conseils comme - au mieux - potentiellement trompeurs. Dans certaines situations, la distribution t doit toujours être utilisée lorsque les degrés de liberté sont beaucoup plus importants que cela.
Lorsque la normale est une approximation raisonnable, cela dépend de diverses choses (et dépend donc de la situation). Cependant, comme (avec les ordinateurs), il n'est pas du tout difficile d'utiliser simplement let , même si les df sont très grands, vous devez vous demander pourquoi vous devez vous soucier de faire quelque chose de différent à n = 30.
Si les tailles d'échantillon sont vraiment grandes, cela ne fera pas de différence notable avec un intervalle de confiance, mais je ne pense pas que n = 30 soit toujours suffisamment proche de «vraiment grand».
Il y a une circonstance dans laquelle il peut être judicieux d'utiliser la normale plutôt que let - c'est quand vos données ne remplissent clairement pas les conditions pour obtenir une distribution t, mais vous pouvez toujours plaider pour la normalité approximative de la moyenne (si n est assez grand). Cependant, dans ces circonstances, le t est souvent une bonne approximation dans la pratique et peut être quelque peu «plus sûr». [Dans une situation comme celle-là, je pourrais être enclin à enquêter via la simulation.]
la source
C'est un anachronisme historique. Il y en a beaucoup dans les statistiques.
Si vous n'aviez pas d'ordinateur, il était difficile d'utiliser la distribution t et beaucoup plus facile d'utiliser une distribution normale. Une fois que la taille de l'échantillon est grande, les deux distributions deviennent similaires (la taille de «grande» est une autre question).
la source
la source