Comment effectuer le test t de Student en ne connaissant que la taille de l'échantillon, la moyenne de l'échantillon et la moyenne de la population?

28

Le test t Student nécessite l'écart type de l'échantillon . Cependant, comment puis-je calculer pour lorsque seules la taille et la moyenne de l'échantillon sont connues?ss

Par exemple, si la taille de l'échantillon est de et la moyenne de l'échantillon est de , j'essaierai alors de créer une liste de échantillons identiques avec des valeurs de chacun. On s'attend à ce que l'écart-type de l'échantillon soit . Cela créera un problème de division par zéro dans le test .49112491120t

DONNÉES SUPPLÉMENTAIRES:
Le revenu moyen des travailleurs d'ACME North Factory est . Il est rapporté qu'un échantillon aléatoire de travailleurs de ACME South Factory avait un revenu annuel de . Cette différence est-elle statistiquement significative?$20049$112

Ai-je raison de dire que la population moyenne est de ?$200

Trousse
la source
Quel problème essayez-vous de résoudre? Cela nous aiderait à vous aider si vous nous en disiez plus.
pmgjones
Sûr. J'ai ajouté un exemple de problème.
Kit

Réponses:

32

Cela peut en surprendre beaucoup, mais pour résoudre ce problème, vous n'avez pas nécessairement besoin d'estimer le par . En fait, vous n'avez pas besoin de savoir quoi que ce soit sur la diffusion des données (bien que cela serait utile, bien sûr). Par exemple, Wall, Boen et Tweedie dans un article de 2001 décrivent comment trouver un intervalle de confiance fini pour la moyenne de toute distribution unimodale basée sur un seul tirage.

Dans le cas présent, nous avons une base pour considérer la moyenne de l'échantillon de 112 comme un tirage d'une distribution approximativement normale (à savoir, la distribution d'échantillonnage de la moyenne d'un échantillon aléatoire simple de 49 salaires). Nous supposons implicitement qu'il y a un nombre assez important de travailleurs d'usine et que leur distribution salariale n'est pas asymétrique ou multimodale au point de rendre le théorème de la limite centrale inopérant. Ensuite, un IC conservateur de 90% pour la moyenne s'étend vers le haut jusqu'à

112+5.84 |112|,

couvrant clairement la vraie moyenne de 200. (Voir la formule 3. de Wall et al .) Étant donné le peu d'informations disponibles et les hypothèses formulées ici, nous ne pouvons donc pas conclure que le 112 diffère "de manière significative" du 200.

Référence: "Un intervalle de confiance efficace pour la moyenne avec des échantillons de taille un et deux." The American Statistician, mai 2001, vol. 55, n ° 2: pp. 102-105. ( pdf )

whuber
la source
4
Oui, ça l'est! C'est pourquoi cela vaut la peine d'être étudié: les défis à notre intuition sont exceptionnellement éducatifs. J'ai appris cela pour la première fois d'un article clair sur la page Web de Carlos Rodriguez (SUNY Albany) mais je ne l'ai pas trouvé ce matin: il semble que le serveur soit en panne. Essayez plus tard de googler "statistiques de carlos rogriguez". (Son article est censé être à omega.albany.edu/8008/confint.html , mais il s'agit peut-être d'une ancienne URL.)
whuber
4
Incroyable. Je ne le savais pas. Merci pour la référence.
Rob Hyndman
4
Merci - avez-vous des chances que ce soit le papier Rodriguez auquel vous pensez? arxiv.org/abs/bayes-an/9504001
ars
2
C'est bien. Cependant, je suis curieux de savoir pourquoi vous avez appliqué la formule (3) (qui vient d'Edelman), que Wall et al décrivent comme "plus large que nécessaire". Vers la fin du paragraphe juste avant de mentionner (3), ils utilisent 4,84 (exactement 1 plus petit que 5,84) pour un intervalle de 90%, ce qui provient de leur équation (4). Sans doute, j'ai raté quelque chose.
Glen_b -Reinstate Monica
2
@Glen_b Au contraire, j'ai probablement manqué quelque chose. Je ferai attention à cela la prochaine fois que j'aurai besoin de ce document, mais en attendant, la différence de constantes n'affecte pas l'analyse ici.
whuber
13

Cela semble être une question légèrement artificielle. 49 est un carré exact de 7. La valeur d'une distribution t avec 48 DoF pour un test bilatéral de p <0,05 est très proche de 2 (2,01).

Nous rejetons l'hypothèse nulle d'égalité des moyennes si | sample_mean - popn_mean | > 2 * StdError, soit 200-112> 2 * SE donc SE <44, c'est-à-dire SD <7 * 44 = 308.

Il serait impossible d'obtenir une distribution normale avec une moyenne de 112 avec un écart type de 308 (ou plus) sans salaire négatif.

Étant donné que les salaires sont limités ci-dessous, ils sont susceptibles d'être asymétriques, donc en supposant qu'une distribution log-normale serait plus appropriée, mais cela nécessiterait toujours des salaires très variables pour éviter un p <0,05 sur un test t.

Thylacoleo
la source
3

μ=0.999112+0.00188112=200.49/1000<0.05la moyenne de l'échantillon sera de 112. En fait, en ajustant le ratio des travailleurs / PDG et le salaire du PDG, nous pouvons rendre arbitrairement peu probable qu'un échantillon de 49 employés attirera un PDG, tout en fixant la moyenne de la population à 200, et la moyenne échantillon à 112. Ainsi, sans faire des hypothèses sur la distribution sous - jacente, vous ne pouvez pas tirer une conclusion à la moyenne de la population.

shabbychef
la source
2
$
1
(1) bonne prise. (2), oui, je peux rendre la configuration du problème asymptotiquement perverse pour les résultats fixes, post hoc . ma faute. cependant, je ne sais plus ce que l'OP essaie de tester. S'ils savent que la population moyenne est de 200 personnes, pourquoi essaient-ils de la tester?
shabbychef
1
BTW, de toute évidence, un rapport salaire / PDG de 400 PDG n'est pas considéré comme extrême aux États-Unis. 800 est un peu pervers, cependant.
shabbychef
2

Je suppose que vous faites référence à un test t sur un échantillon. Son objectif est de comparer la moyenne de votre échantillon avec une moyenne hypothétique. Il calcule ensuite (en supposant que votre population est gaussienne) une valeur P qui répond à cette question: si la moyenne de la population était vraiment la valeur hypothétique, dans quelle mesure serait-il peu probable de tirer un échantillon dont la moyenne est aussi éloignée de cette valeur (ou plus) que tu as observé? Bien sûr, la réponse à cette question dépend de la taille de l'échantillon. Mais cela dépend aussi de la variabilité. Si vos données ont une énorme dispersion, elles sont cohérentes avec un large éventail de moyennes de population. Si vos données sont vraiment serrées, elles sont cohérentes avec une gamme plus petite de moyennes de population.

Harvey Motulsky
la source