L'étude que j'examine rapporte une hauteur moyenne pour 20 sujets de 1,70 mètre avec un écart type de 0,0. Est-ce à dire que les 20 font exactement 1,70 mètre? Ou s'agit-il d'une erreur de signalement?
L'étude que j'examine rapporte une hauteur moyenne pour 20 sujets de 1,70 mètre avec un écart type de 0,0. Est-ce à dire que les 20 font exactement 1,70 mètre? Ou s'agit-il d'une erreur de signalement?
Selon ce fil de biologie SE , l'écart-type de la taille adulte mâle est d'environ mètre et celui des femelles est d'environ mètre.
L'arrondi à une décimale donnerait mètre. Le fait que l'écart-type soit signalé comme étant de mètre indique un écart-type inférieur à mètre ... mais un écart-type de, disons, mètre serait toujours cohérent avec le chiffre indiqué car il arrondirait à , mais indiquerait la variation des hauteurs dans l'échantillon n'est que légèrement inférieure à la variabilité que nous observons quotidiennement dans la population générale.
Le chiffre est-il bien rapporté? Eh bien, il serait beaucoup plus utile que l'écart-type ait été signalé à deux décimales près, comme l'était la moyenne. Il peut également s'agir d'une simple erreur numérique ou d'arrondi; par exemple, aurait pu être tronqué à plutôt qu'arrondi . Mais serait-il possible que le chiffre se réfère à l'erreur standard à la place? Je vois souvent des chiffres écrits d'une manière qui rend ambigu si un écart-type ou une erreur standard est cité - par exemple, "la moyenne de l'échantillon est de ".
À quel point est-il plausible que l'écart-type correct arrondisse à à une décimale près? Le code R suivant simule un million d'échantillons de taille vingt prélevés sur une population d'écart type (comme cela a été signalé ailleurs pour la taille des femmes), trouve l'écart type pour chaque échantillon, trace un histogramme des résultats et calcule la proportion de échantillons dans lesquels l'écart type observé était inférieur à :
set.seed(123) #so uses same random numbers each time code is run
x <- replicate(1e6, sd(rnorm(20, sd=0.06)))
hist(x)
sum(x < 0.05)/1e6
[1] 0.170691
Par conséquent, un écart-type qui arrondit à n'est pas invraisemblable, se produisant dans environ dix-sept pour cent du temps si les hauteurs sont normalement distribuées avec un véritable écart-type de .
Sous réserve de ces hypothèses, nous pouvons également calculer, plutôt que simuler, cette probabilité à environ dix-sept pour cent, comme suit:
où nous avons utilisé le fait que suit la distribution du chi carré avec degrés de liberté. Vous pouvez calculer la probabilité dans R en utilisant ; si vous remplacez par conformément aux chiffres publiés pour les écarts-types masculins, la probabilité est réduite à environ quatre pour cent. Comme le souligne @whuber dans les commentaires ci-dessous, ce type de petits «arrondis à zéro» SD est plus susceptible de se produire si le groupe échantillonné était plus homogène que la population générale. Si l'écart-type de la population est d'environpchisq(q = 19*0.05^2/0.06^2, df = 19)
mètres, la probabilité d’obtenir un si petit écart-type de l’échantillon aurait également diminué si la taille de l’échantillon avait été plus grande.
curve(pchisq(q = 19*0.05^2/x^2, df = 19), from=0.005, to=0.1,
xlab="Population SD", ylab="Probability sample SD < 0.05 if n = 20")
curve(pchisq(q = (x-1)*0.05^2/0.06^2, df = x-1), from=2, to=50, ylim=c(0,0.6),
xlab="Sample size", ylab="Probability sample SD < 0.05 if population SD = 0.06")
pchisq(q = 19*0.005^2/0.01^2, df = 19)
ne donne qu'une probabilité de 0,04% de l'échantillon SD <0,005. Même SD population = 0,008 donne une probabilité seulement d'environ 0,8%. Mais les écarts-type de population de 0,007, 0,006 et 0,005 donnent des probabilités de 4%, 17% (pas de coïncidence!) Et 54% respectivementC'est presque certainement une erreur de rapport, à moins que les personnes n'aient été sélectionnées pour cette taille.
la source