Calcul de la taille d'échantillon requise, estimation de la précision de la variance?

18

Contexte

J'ai une variable avec une distribution inconnue.

J'ai 500 échantillons, mais je voudrais démontrer la précision avec laquelle je peux calculer la variance, par exemple pour affirmer qu'une taille d'échantillon de 500 est suffisante. Je souhaite également connaître la taille minimale de l'échantillon qui serait nécessaire pour estimer la variance avec une précision de .X%

Des questions

Comment puis-je calculer

  1. la précision de mon estimation de la variance étant donné un échantillon de ? de ?n=500n=N
  2. Comment puis-je calculer le nombre minimum d'échantillons requis pour estimer la variance avec une précision de ?X

Exemple

Figure 1: estimation de la densité du paramètre sur la base des 500 échantillons.

entrez la description de l'image ici

Figure 2 Voici un graphique de la taille de l'échantillon sur l'axe des x par rapport aux estimations de la variance sur l'axe des y que j'ai calculées en utilisant des sous-échantillons de l'échantillon de 500. L'idée est que les estimations convergeront vers la vraie variance lorsque n augmentera .

Cependant, les estimations ne sont pas valides indépendamment puisque les échantillons utilisés pour estimer la variance pour ne sont pas indépendants les uns des autres ou des échantillons utilisés pour calculer la variance àn [ 20 , 40 , 80 ]n[10,125,250,500]n[20,40,80]

entrez la description de l'image ici

Abe
la source
Sachez simplement que si une composante de votre distribution inconnue est une distribution de Cauchy, la variance n'est pas définie.
Mike Anderson
@Mike Ou bien un nombre infini d'autres distributions.
Glen_b -Reinstate Monica

Réponses:

11

Pour les variables aléatoires iid , l'estimateur sans biais pour la variance s 2 (celui avec le dénominateur n - 1 ) a une variance:X1,,Xns2n1

Vuner(s2)=σ4(2n-1+κn)

est l'excès de kurtosis de la distribution (référence: Wikipedia ). Alors maintenant, vous devez également estimer le kurtosis de votre distribution. Vous pouvez utiliser une quantité parfois décrite comme γ 2 (également de Wikipédia ):κγ2

γ2=μ4σ4-3

Je suppose que si vous utilisez s comme estimation de σ et comme estimation pour κ , vous obtenez une estimation raisonnable pour V a r ( s 2 ) , bien que je ne vois aucune garantie qu'il ne soit pas biaisé. Voyez si cela correspond à la variance entre les sous-ensembles de vos 500 points de données, et si cela ne vous inquiète plus :)γ2κVuner(s2)

Erik P.
la source
avez-vous une référence de manuel pour l'estimateur de variance non biaisé? Je ne sais pas où aller de Wikipedia pour plus de contexte.
Abe
Je n'ai pas mon texte standard Rice avec moi ici, donc je ne peux pas vérifier le numéro de page pour vous, mais je suis sûr qu'il est là. Wikipedia suggère qu'il devrait également être mentionné dans: Montgomery, DC et Runger, GC: Statistiques appliquées et probabilités pour les ingénieurs , page 201. John Wiley & Sons New York, 1994.
Erik P.
merci pour votre aide. Cette réponse a été très utile et informative pour quantifier l'incertitude de variance - j'ai appliqué l'équation environ 10 fois au cours de la dernière journée. calculer est facile avec la bibliothèque: kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe
Y a-t-il une chance que vous ayez trouvé le numéro de page du texte Rice? Je ne le trouve pas à Casella et Berger. Une référence principale serait encore meilleure si vous la connaissez. La page wikipedia est notamment non référencée.
Abe
Hmmm ... on dirait que Rice n'a pas la formule non plus. Je garderai un œil dessus, mais à ce stade, je n'ai pas de référence du tout.
Erik P.
16

Apprendre une variance est difficile.

Il faut (peut-être de façon surprenante) un grand nombre d'échantillons pour bien estimer une variance dans de nombreux cas. Ci-dessous, je vais montrer le développement du cas "canonique" d'un échantillon normal iid.

Supposons que , i = 1 , , n sont des variables aléatoires indépendantes N ( μ , σ 2 ) . Nous recherchons un intervalle de confiance de 100 ( 1 - α ) % pour la variance de telle sorte que la largeur de l'intervalle soit ρ s 2 , c'est-à-dire que la largeur soit 100 ρ %Yii=1,,nN(μ,σ2)100(1α)%ρs2100ρ% de l'estimation ponctuelle. Par exemple, si , alors la largeur de l'IC est la moitié de la valeur de l'estimation ponctuelle, par exemple siρ=1/2 , alors l'IC serait quelque chose comme ( 8 ,s2=10 , ayant une largeur de 5. Notez également l'asymétrie autour de l'estimation ponctuelle. ( s 2 est l'estimateur sans biais de la variance.)(8,13)s2

"L'intervalle de confiance" (plutôt "a") pour est ( n - 1 ) s 2s2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
est lequantileβde la distribution du chi carré avecn-1degrés de liberté. (Cela vient du fait que(n-1)s2χ(n1)2ββn1 est une quantité pivot dans un contexte gaussien.)(n1)s2/σ2

Nous voulons minimiser la largeur pour que il nous reste donc à résoudre pour n tel que ( n - 1 ) ( 1

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

Dans le cas d'un intervalle de confiance à 99%, on obtient pour ρ = 1 et n = 5321 pour ρ = 0,1 . Ce dernier cas donne un intervalle qui est ( encore! ) 10% aussi grand que l'estimation ponctuelle de la variance.n=65ρ=1n=5321ρ=0.1

Si le niveau de confiance que vous avez choisi est inférieur à 99%, le même intervalle de largeur sera obtenu pour une valeur inférieure de . Mais, n peut toujours être plus grand que vous ne l'auriez pensé.nn

Un tracé de la taille de l'échantillon fonction de la largeur proportionnelle ρ montre quelque chose qui semble asymptotiquement linéaire sur une échelle log-log; en d'autres termes, une relation de type loi de puissance. Nous pouvons estimer (grossièrement) la puissance de cette relation puissance-loi commenρ

α^log0.1log1log5321log65=log10log5231650.525,

ce qui est malheureusement décidément lent!


C'est en quelque sorte le cas «canonique» pour vous donner une idée de la façon de procéder. Sur la base de vos graphiques, vos données ne semblent pas particulièrement normales; en particulier, il y a ce qui semble être une asymétrie notable.

Mais cela devrait vous donner une idée approximative de ce à quoi vous attendre. Notez que pour répondre à votre deuxième question ci-dessus, il est nécessaire de fixer d'abord un certain niveau de confiance, que j'ai défini à 99% dans le développement ci-dessus à des fins de démonstration.

cardinal
la source
c'est une très belle réponse à ma question. Cependant, bien que je suive le calcul que vous faites pour , je ne sais pas exactement si les unités pour r h o sont des pourcentages dans la solution n = 65 pour ρ < 1 ; cela signifie-t-il que " ρ est inférieur à 1 × s 2 " ou " ρ est inférieur à 1 % de s 2 ?"n|ρrhon=65ρ<1ρ1×s2ρ1%s2
Abe
@Abe, mis à jour et, espérons-le, clarifié au cours du processus. Il y avait une faute de frappe particulièrement mauvaise dans la version précédente. Désolé pour ça.
Cardinal
une très belle réponse, mais j'ai choisi celle de @Erik car elle est plus applicable à mon problème (car mon paramètre n'est pas normalement distribué).
Abe
@Abe: Pas de problème. C'est à cela que sert la coche. Ma réponse était (est) destinée à être illustrative, plus que tout. D'après ce que je peux dire, il semble toujours être le seul à répondre à vos deux questions et sera (asymptotiquement) correct même dans le scénario décrit par Erik. (+1 pour lui il y a plus d'un an.) :)
Cardinal
s(ss)s[lcl,ucl]
1

Je me concentrerais sur le SD plutôt que sur la variance, car c'est sur une échelle qui est plus facile à interpréter.

Les gens examinent parfois les intervalles de confiance pour les écarts-types ou les écarts, mais l'accent est généralement mis sur les moyens.

Les résultats que vous donnez pour la distribution des s2/σ2 peut être utilisé pour obtenir un intervalle de confiance pour σ2 (et donc aussi σ); la plupart des textes d'introduction en mathématiques / statistiques donneraient les détails dans la même section dans laquelle la distribution deσ2a été mentionné. Je prendrais juste 2,5% de chaque queue.

Karl
la source
(This reply came here after a duplicate question, framed somewhat differently, was merged.)
whuber
1

La solution suivante a été donnée par Greenwood et Sandomire dans un document JASA de 1950.

Laisser X1,,Xn être un échantillon aléatoire d'un N(μ,σ2)Distribution. Vous ferez des inférences surσen utilisant comme estimateur ( biaisé ) l'écart type de l'échantillon

S=je=1n(Xje-X¯)2n-1,
et vous voulez contrôler la probabilité que l'écart relatif entre S et σ is within a fraction 0<u<1. That is,
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
in which the significance level γ=1ab.

It follows that

Pr{(n1)S2σ2<(n1)(1u)2}=a
and
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
Since the pivotal quantity (n1)S2/σ2 has χn12 distribution, adding the two probabilities, we find

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

and the necessary sample size is found solving the former equation in n for given γ and u.

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for u=10% and γ=95%.

Sample size n = 193
Zen
la source