Relation entre la plage et l'écart type

14

Dans un article, j'ai trouvé la formule de l'écart-type d'une taille d'échantillon N

σ=R¯2.534

où est la plage moyenne de sous-échantillons (taille ) de l'échantillon principal. Comment le nombre est-il calculé? C'est le bon numéro? 62,534R¯62.534

Andy
la source
6
Références s'il vous plaît. Plus important encore: 1. Il ne peut pas y avoir de "nombre correct" ici indépendamment du type de distribution dont vous tirez. 2. Ces règles proviennent généralement de l'intérêt pour les méthodes raccourcies d'estimation de l'écart-type à partir de la plage. Maintenant, nous avons des ordinateurs ... Voulez-vous faire cela et pourquoi? Pourquoi ne pas simplement utiliser les données?
Nick Cox
3
@Nick Désolé: vous aviez raison. Une valeur d'environ fonctionne pour l' écart-type lorsque la taille de l'échantillon est d'environ 15 à 50 ; 3 œuvres pour des tailles d'échantillon d'environ 10 , etc. Je vais supprimer mon commentaire précédent pour qu'il ne déroute personne d'autre que moi! 415503dix
whuber
1
@NickCox c'est une vieille source russe et je n'ai pas vu la formule avant.
Andy
3
Donner des références est rarement une mauvaise idée. Laissez les lecteurs décider eux-mêmes s'ils sont intéressants ou accessibles. (Il y a beaucoup de gens ici qui peuvent lire le russe, par exemple.)
Nick Cox

Réponses:

17

Dans un échantillon de n valeurs indépendantes d'une distribution F avec pdf f , le pdf de la distribution conjointe des extrêmes min ( x ) = x [ 1 ] et max ( x ) = x [ n ] est proportionnel àXnFFmin(x)=x[1]max(X)=X[n]

F(X[1])(F(X[n])-F(X[1]))n-2F(X[n])X[1]X[n]=HF(X[1],X[n])X[1]X[n].

(La constante de proportionnalité est l'inverse du coefficient multinomial . Intuitivement, ce PDF commun exprime la chance de trouver la plus petite valeur dans la plage[x[1],x[1]+dx[1]), la plus grande valeur dans la plage[x[n],x[n]+dx[n])(n1,n2,1)=n(n1)[x[1],x[1]+dx[1])[x[n],x[n]+dx[n]) , et le milieu n2 valeurs moyennes entre elles dans la plage . Lorsque F est continue, nous pouvons remplacer cette plage moyenne par ( x [ 1 ] , x [ n ] ] , négligeant ainsi uniquement une quantité de probabilité "infinitésimale". Les probabilités associées, au premier ordre dans les différentiels, sont f ( x [ 1 ][x[1]+dx[1],x[n])F(x[1],x[n]]f ( xf(x[1])dx[1], etF( x [ n ] )-F( x [ 1 ] ),.Respectivement, maintenantqui rend évident où la formule vient)f(x[n])dx[n],F(x[n])F(x[1]),

Prendre l'espérance de la plage donne 2,53441 σ pour toute distribution normale avec un écart-type σ et n = 6 . La plage attendue en tant que multiple de σ dépend de la taille de l'échantillon n :x[n]x[1]2.53441 σσn=6σn

Ordinaire

Ces valeurs ont été calculées en intégrant numériquement sur{(x,y)R2| xy}, avecFréglé sur le CDF normal standard, et divisé par l'écart-type deF(qui n'est que de1).(n1,n2,1)(yx)HF(x,y)dxdy{(x,y)R2|xy}FF1

Une relation multiplicative similaire entre la plage attendue et l'écart-type est valable pour toute famille de distributions à l'échelle de l'emplacement, car elle est une propriété de la forme de la distribution seule. Par exemple, voici un tracé comparable pour des distributions uniformes:

Uniforme

et distributions exponentielles:

Exponentiel

Les valeurs des deux graphiques précédents ont été obtenues par intégration exacte - et non numérique -, ce qui est possible en raison des formes algébriques relativement simples de et F dans chaque cas. Pour les distributions uniformes, elles sont égales à n - 1fF et pour les distributions exponentielles, elles sontγ+ψ(n)=γ+ Γ (n1(n+1)12γest la constante d'Euler etγ+ψ(n)=γ+Γ(n)Γ(n)γ est la fonction "polygamma", la dérivée logarithmique de la fonction Gamma d'Euler.ψ

Bien qu'ils diffèrent (car ces distributions affichent un large éventail de formes), les trois s'accordent à peu près autour de , montrant que le multiplicateur 2,5 ne dépend pas fortement de la forme et peut donc servir d'omnibus, une évaluation robuste de l'écart-type lorsque des gammes de petits sous-échantillons sont connues. (En effet, la distribution très taillée de Student t avec trois degrés de liberté a toujours un multiplicateur autour de 2,3 pour n = 6 , pas très loin de 2,5 .)n=62,5t2.3n=62,5

whuber
la source
6
2.53441σ
@Avraham Merci pour les commentaires éclairants. Ce qui m'a frappé lorsque j'ai ajouté les graphiques, c'est que la partie vraiment intelligente de toute cette approche est l'utilisation de sous-échantillons de taille six, car c'est là que les multiplicateurs ont tous tendance à être à peu près les mêmes quelle que soit la forme de la distribution.
whuber
Merci! Les tableaux de Tippet donnent en fait le multiplicateur approprié pour tous les nombres entre 2 et 1000. Il mentionne des problèmes de calcul; bien sûr, c'était en 1925, bien 20 ans avant ENIAC.
Avraham
@whuber can you show how the number (2.534) was calculated?
Andy
I edited the answer to include explanations of the calculations.
whuber
4

That approximation is very close to the true sample standard deviation. I wrote a quick R script to illustrate it:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

which yields:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Now I am not sure (yet) why this works but it at least looks like (at face value) that the approximation is a decent one.

Edit: See @Whuber's exceptional comment (above) on why this works


la source
1
You are drawing subsamples of size 6 from an approximately uniform distribution. For a truly uniform distribution the ratio is 103/72.474. Indeed, if you were to use that factor in your simulation you would obtain mean(R)/2.474 equal to 2887.6, very close to sd(x).
whuber
Very true! > mean(R)/2.474 [1] 2887.611