Dans un article, j'ai trouvé la formule de l'écart-type d'une taille d'échantillon
où est la plage moyenne de sous-échantillons (taille ) de l'échantillon principal. Comment le nombre est-il calculé? C'est le bon numéro? 62,534
Dans un article, j'ai trouvé la formule de l'écart-type d'une taille d'échantillon
où est la plage moyenne de sous-échantillons (taille ) de l'échantillon principal. Comment le nombre est-il calculé? C'est le bon numéro? 62,534
Réponses:
Dans un échantillon de n valeurs indépendantes d'une distribution F avec pdf f , le pdf de la distribution conjointe des extrêmes min ( x ) = x [ 1 ] et max ( x ) = x [ n ] est proportionnel àX n F F min ( x ) = x[1] max ( x ) = x[ n ]
(La constante de proportionnalité est l'inverse du coefficient multinomial . Intuitivement, ce PDF commun exprime la chance de trouver la plus petite valeur dans la plage[x[1],x[1]+dx[1]), la plus grande valeur dans la plage[x[n],x[n]+dx[n])( n1 , n - 2 , 1)=n(n−1) [x[1],x[1]+dx[1]) [x[n],x[n]+dx[n]) , et le milieu n−2 valeurs moyennes entre elles dans la plage . Lorsque F est continue, nous pouvons remplacer cette plage moyenne par ( x [ 1 ] , x [ n ] ] , négligeant ainsi uniquement une quantité de probabilité "infinitésimale". Les probabilités associées, au premier ordre dans les différentiels, sont f ( x [ 1 ][x[1]+dx[1],x[n]) F (x[1],x[n]] f ( xf(x[1])dx[1], etF( x [ n ] )-F( x [ 1 ] ),.Respectivement, maintenantqui rend évident où la formule vient)f(x[n])dx[n], F(x[n])−F(x[1]),
Prendre l'espérance de la plage donne 2,53441 σ pour toute distribution normale avec un écart-type σ et n = 6 . La plage attendue en tant que multiple de σ dépend de la taille de l'échantillon n :x[n]−x[1] 2.53441 σ σ n=6 σ n
Ces valeurs ont été calculées en intégrant numériquement sur{(x,y)∈R2| x≤y}, avecFréglé sur le CDF normal standard, et divisé par l'écart-type deF(qui n'est que de1).(n1,n−2,1)(y−x)HF(x,y)dxdy {(x,y)∈R2|x≤y} F F 1
Une relation multiplicative similaire entre la plage attendue et l'écart-type est valable pour toute famille de distributions à l'échelle de l'emplacement, car elle est une propriété de la forme de la distribution seule. Par exemple, voici un tracé comparable pour des distributions uniformes:
et distributions exponentielles:
Les valeurs des deux graphiques précédents ont été obtenues par intégration exacte - et non numérique -, ce qui est possible en raison des formes algébriques relativement simples de et F dans chaque cas. Pour les distributions uniformes, elles sont égales à n - 1f F et pour les distributions exponentielles, elles sontγ+ψ(n)=γ+ Γ ′ (n−1(n+1)12−−√ oùγest la constante d'Euler etγ+ψ(n)=γ+Γ′(n)Γ(n) γ est la fonction "polygamma", la dérivée logarithmique de la fonction Gamma d'Euler.ψ
Bien qu'ils diffèrent (car ces distributions affichent un large éventail de formes), les trois s'accordent à peu près autour de , montrant que le multiplicateur 2,5 ne dépend pas fortement de la forme et peut donc servir d'omnibus, une évaluation robuste de l'écart-type lorsque des gammes de petits sous-échantillons sont connues. (En effet, la distribution très taillée de Student t avec trois degrés de liberté a toujours un multiplicateur autour de 2,3 pour n = 6 , pas très loin de 2,5 .)n = 6 2,5 t 2.3 n = 6 2,5
la source
That approximation is very close to the true sample standard deviation. I wrote a quick R script to illustrate it:
which yields:
Now I am not sure (yet) why this works but it at least looks like (at face value) that the approximation is a decent one.
Edit: See @Whuber's exceptional comment (above) on why this works
la source
mean(R)/2.474
equal tosd(x)
.> mean(R)/2.474 [1] 2887.611