Contexte
J'ai une variable avec une distribution inconnue.
J'ai 500 échantillons, mais je voudrais démontrer la précision avec laquelle je peux calculer la variance, par exemple pour affirmer qu'une taille d'échantillon de 500 est suffisante. Je souhaite également connaître la taille minimale de l'échantillon qui serait nécessaire pour estimer la variance avec une précision de .
Des questions
Comment puis-je calculer
- la précision de mon estimation de la variance étant donné un échantillon de ? de ?
- Comment puis-je calculer le nombre minimum d'échantillons requis pour estimer la variance avec une précision de ?
Exemple
Figure 1: estimation de la densité du paramètre sur la base des 500 échantillons.
Figure 2 Voici un graphique de la taille de l'échantillon sur l'axe des x par rapport aux estimations de la variance sur l'axe des y que j'ai calculées en utilisant des sous-échantillons de l'échantillon de 500. L'idée est que les estimations convergeront vers la vraie variance lorsque n augmentera .
Cependant, les estimations ne sont pas valides indépendamment puisque les échantillons utilisés pour estimer la variance pour ne sont pas indépendants les uns des autres ou des échantillons utilisés pour calculer la variance àn ∈ [ 20 , 40 , 80 ]
Réponses:
Pour les variables aléatoires iid , l'estimateur sans biais pour la variance s 2 (celui avec le dénominateur n - 1 ) a une variance:X1, … , Xn s2 n - 1
où est l'excès de kurtosis de la distribution (référence: Wikipedia ). Alors maintenant, vous devez également estimer le kurtosis de votre distribution. Vous pouvez utiliser une quantité parfois décrite comme γ 2 (également de Wikipédia ):κ γ2
Je suppose que si vous utilisezs comme estimation de σ et comme estimation pour κ , vous obtenez une estimation raisonnable pour V a r ( s 2 ) , bien que je ne vois aucune garantie qu'il ne soit pas biaisé. Voyez si cela correspond à la variance entre les sous-ensembles de vos 500 points de données, et si cela ne vous inquiète plus :)γ2 κ V a r ( s2)
la source
moments
library(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Apprendre une variance est difficile.
Il faut (peut-être de façon surprenante) un grand nombre d'échantillons pour bien estimer une variance dans de nombreux cas. Ci-dessous, je vais montrer le développement du cas "canonique" d'un échantillon normal iid.
Supposons que , i = 1 , … , n sont des variables aléatoires indépendantes N ( μ , σ 2 ) . Nous recherchons un intervalle de confiance de 100 ( 1 - α ) % pour la variance de telle sorte que la largeur de l'intervalle soit ρ s 2 , c'est-à-dire que la largeur soit 100 ρ %Yi i=1,…,n N(μ,σ2) 100(1−α)% ρs2 100ρ% de l'estimation ponctuelle. Par exemple, si , alors la largeur de l'IC est la moitié de la valeur de l'estimation ponctuelle, par exemple siρ=1/2 , alors l'IC serait quelque chose comme ( 8 ,s2=10 , ayant une largeur de 5. Notez également l'asymétrie autour de l'estimation ponctuelle. ( s 2 est l'estimateur sans biais de la variance.)(8,13) s2
"L'intervalle de confiance" (plutôt "a") pour est ( n - 1 ) s 2s2
Nous voulons minimiser la largeur pour que il nous reste donc à résoudre pour n tel que ( n - 1 ) ( 1
Dans le cas d'un intervalle de confiance à 99%, on obtient pour ρ = 1 et n = 5321 pour ρ = 0,1 . Ce dernier cas donne un intervalle qui est ( encore! ) 10% aussi grand que l'estimation ponctuelle de la variance.n=65 ρ=1 n=5321 ρ=0.1
Si le niveau de confiance que vous avez choisi est inférieur à 99%, le même intervalle de largeur sera obtenu pour une valeur inférieure de . Mais, n peut toujours être plus grand que vous ne l'auriez pensé.n n
Un tracé de la taille de l'échantillon fonction de la largeur proportionnelle ρ montre quelque chose qui semble asymptotiquement linéaire sur une échelle log-log; en d'autres termes, une relation de type loi de puissance. Nous pouvons estimer (grossièrement) la puissance de cette relation puissance-loi commen ρ
ce qui est malheureusement décidément lent!
C'est en quelque sorte le cas «canonique» pour vous donner une idée de la façon de procéder. Sur la base de vos graphiques, vos données ne semblent pas particulièrement normales; en particulier, il y a ce qui semble être une asymétrie notable.
Mais cela devrait vous donner une idée approximative de ce à quoi vous attendre. Notez que pour répondre à votre deuxième question ci-dessus, il est nécessaire de fixer d'abord un certain niveau de confiance, que j'ai défini à 99% dans le développement ci-dessus à des fins de démonstration.
la source
Je me concentrerais sur le SD plutôt que sur la variance, car c'est sur une échelle qui est plus facile à interpréter.
Les gens examinent parfois les intervalles de confiance pour les écarts-types ou les écarts, mais l'accent est généralement mis sur les moyens.
Les résultats que vous donnez pour la distribution dess2/ σ2 peut être utilisé pour obtenir un intervalle de confiance pour σ2 (et donc aussi σ ); la plupart des textes d'introduction en mathématiques / statistiques donneraient les détails dans la même section dans laquelle la distribution deσ2 a été mentionné. Je prendrais juste 2,5% de chaque queue.
la source
La solution suivante a été donnée par Greenwood et Sandomire dans un document JASA de 1950.
LaisserX1, … , Xn être un échantillon aléatoire d'un N (μ, σ2) Distribution. Vous ferez des inférences surσ en utilisant comme estimateur ( biaisé ) l'écart type de l'échantillon
It follows that
and the necessary sample size is found solving the former equation inn for given γ and u .
R
code.Output foru=10% and γ=95% .
la source