Le test Student nécessite l'écart type de l'échantillon . Cependant, comment puis-je calculer pour lorsque seules la taille et la moyenne de l'échantillon sont connues?
Par exemple, si la taille de l'échantillon est de et la moyenne de l'échantillon est de , j'essaierai alors de créer une liste de échantillons identiques avec des valeurs de chacun. On s'attend à ce que l'écart-type de l'échantillon soit . Cela créera un problème de division par zéro dans le test .
DONNÉES SUPPLÉMENTAIRES:
Le revenu moyen des travailleurs d'ACME North Factory est . Il est rapporté qu'un échantillon aléatoire de travailleurs de ACME South Factory avait un revenu annuel de . Cette différence est-elle statistiquement significative?
Ai-je raison de dire que la population moyenne est de ?
Réponses:
Cela peut en surprendre beaucoup, mais pour résoudre ce problème, vous n'avez pas nécessairement besoin d'estimer le par . En fait, vous n'avez pas besoin de savoir quoi que ce soit sur la diffusion des données (bien que cela serait utile, bien sûr). Par exemple, Wall, Boen et Tweedie dans un article de 2001 décrivent comment trouver un intervalle de confiance fini pour la moyenne de toute distribution unimodale basée sur un seul tirage.
Dans le cas présent, nous avons une base pour considérer la moyenne de l'échantillon de 112 comme un tirage d'une distribution approximativement normale (à savoir, la distribution d'échantillonnage de la moyenne d'un échantillon aléatoire simple de 49 salaires). Nous supposons implicitement qu'il y a un nombre assez important de travailleurs d'usine et que leur distribution salariale n'est pas asymétrique ou multimodale au point de rendre le théorème de la limite centrale inopérant. Ensuite, un IC conservateur de 90% pour la moyenne s'étend vers le haut jusqu'à
couvrant clairement la vraie moyenne de 200. (Voir la formule 3. de Wall et al .) Étant donné le peu d'informations disponibles et les hypothèses formulées ici, nous ne pouvons donc pas conclure que le 112 diffère "de manière significative" du 200.
Référence: "Un intervalle de confiance efficace pour la moyenne avec des échantillons de taille un et deux." The American Statistician, mai 2001, vol. 55, n ° 2: pp. 102-105. ( pdf )
la source
Cela semble être une question légèrement artificielle. 49 est un carré exact de 7. La valeur d'une distribution t avec 48 DoF pour un test bilatéral de p <0,05 est très proche de 2 (2,01).
Nous rejetons l'hypothèse nulle d'égalité des moyennes si | sample_mean - popn_mean | > 2 * StdError, soit 200-112> 2 * SE donc SE <44, c'est-à-dire SD <7 * 44 = 308.
Il serait impossible d'obtenir une distribution normale avec une moyenne de 112 avec un écart type de 308 (ou plus) sans salaire négatif.
Étant donné que les salaires sont limités ci-dessous, ils sont susceptibles d'être asymétriques, donc en supposant qu'une distribution log-normale serait plus appropriée, mais cela nécessiterait toujours des salaires très variables pour éviter un p <0,05 sur un test t.
la source
la moyenne de l'échantillon sera de 112. En fait, en ajustant le ratio des travailleurs / PDG et le salaire du PDG, nous pouvons rendre arbitrairement peu probable qu'un échantillon de 49 employés attirera un PDG, tout en fixant la moyenne de la population à 200, et la moyenne échantillon à 112. Ainsi, sans faire des hypothèses sur la distribution sous - jacente, vous ne pouvez pas tirer une conclusion à la moyenne de la population.la source
Je suppose que vous faites référence à un test t sur un échantillon. Son objectif est de comparer la moyenne de votre échantillon avec une moyenne hypothétique. Il calcule ensuite (en supposant que votre population est gaussienne) une valeur P qui répond à cette question: si la moyenne de la population était vraiment la valeur hypothétique, dans quelle mesure serait-il peu probable de tirer un échantillon dont la moyenne est aussi éloignée de cette valeur (ou plus) que tu as observé? Bien sûr, la réponse à cette question dépend de la taille de l'échantillon. Mais cela dépend aussi de la variabilité. Si vos données ont une énorme dispersion, elles sont cohérentes avec un large éventail de moyennes de population. Si vos données sont vraiment serrées, elles sont cohérentes avec une gamme plus petite de moyennes de population.
la source