Confusion quant au moment d'utiliser les statistiques par rapport aux statistiques

15

Je faisais référence à cette conférence vidéo pour calculer l'intervalle de confiance . Cependant, j'ai une certaine confusion. Ce type utilise des statistiques pour le calcul. Cependant, je pense qu'il aurait dû être un -statistiques. On ne nous donne pas le véritable écart-type de la population. Nous utilisons l'écart type de l'échantillon pour estimer le vrai.zt

Alors pourquoi a-t-il pris une distribution normale pour l'intervalle de confiance plutôt que ?t

user34790
la source
Tout comme référence, travaillant le problème exposé sur la vidéo avec une t statistique produirait: n <- 36; diff <- 12; sd <- 40; 2 * (pt(diff/(sd/sqrt(n)), df = n - 1) - 0.5) = 0.9195145.
Antoni Parellada

Réponses:

10

Vous avez raison, ce devrait être une distribution en T. Mais comme la taille de l'échantillon est de 36 (c'est-à-dire> 20), une distribution az serait également appropriée. Rappelez-vous, à mesure que la taille de l'échantillon augmente, la distribution t devient plus similaire à la distribution z dans la forme.

Gris
la source
21

À l'époque où j'ai suivi mon premier cours de statistiques (après les dinosaures, mais quand de vrais ordinateurs occupaient encore une pièce entière), on nous avait appris à utiliser la table z s'il y avait plus de 30 degrés de liberté, en partie parce que la table t dans le livre n'a augmenté que jusqu'à 30 degrés de liberté et si vous regardez la table t, vous verrez que quelque part autour de 28 degrés de liberté, vous obtenez les mêmes résultats que la table z à 2 chiffres significatifs (et lorsque vous faites tout cela à la main, nous avons tendance arrondir plus souvent). Peut-être que le présentateur est toujours de cette école.

Vous avez raison de dire que si vous utilisez l'écart-type de l'échantillon pour un test sur la moyenne, vous devez vraiment utiliser la distribution t quelle que soit la taille (ce qui est beaucoup plus facile à faire de nos jours) et n'utilisez le z (standard normal) que lorsque vous connaître l'écart type de la population, mais pour des raisons pratiques, vous ne verrez pas souvent de différence significative si la taille de l'échantillon est grande.

Greg Snow
la source
1
Grande anecdote :)
swiecki
Un effet secondaire regrettable du fait qu'il est parfois OK d'utiliser des intervalles z est que certains textes d'introduction présentent des intervalles z au lieu d'intervalles t. Il existe de nombreux domaines scientifiques où les échantillons sont généralement suffisamment petits pour que les intervalles z soient totalement inappropriés. J'en parle à mes élèves chaque année, avec des instructions explicites, mais un nombre important d'entre eux utilisent des intervalles z :-(
Michael Lew
4

J'ai du mal à savoir si Khan a simplement simplifié les choses dans la vidéo ou s'il a tout simplement tort. Je dois dire le dernier, mais le problème n'est pas dans la question z ou t . Il appelle ce qu'il calcule un intervalle de confiance, puis dit qu'il est confiant à 92% que la moyenne de la population se situe dans la fourchette donnée. Ce n'est tout simplement pas quelque chose que vous concluez d'un intervalle de confiance ... malheureusement.

Alors je reviens à la question t vs z et commence à me demander s'il a fait une erreur là-bas. Je pense que peut-être pas parce qu'il déclare que si l'échantillon est plus petit, il faut faire une correction. Les autres répondeurs ont donc probablement raison sur ce point. Il utilise juste z parce qu'il l'a déjà introduit et il est assez proche avec le n de 36. Je n'ai pas l'intention de parcourir toutes les vidéos mais j'imagine qu'il introduira la distribution t plus tard, si tout va bien la prochaine.

Il est vraiment regrettable que Khan Academy se trompe sur tant de domaines des statistiques ... mais peut-être que je ressens ça parce que je ne suis pointé que vers des vidéos avec des problèmes.

John
la source