Le rééchantillonnage Bootstrap peut-il être utilisé pour calculer un intervalle de confiance pour la variance d'un ensemble de données?
Oui, tout comme avec de nombreuses autres statistiques.
Je sais que si vous rééchantillonnez à plusieurs reprises à partir d'un ensemble de données et calculez la moyenne à chaque fois, ces moyennes suivront une distribution normale (par le CLT).
Il n'est pas toujours vrai que si vous démarrez un moyen, le moyen de démarrage suivra une distribution normale, même pour les distributions pour lesquelles le CLT s'applique.
n = 100
Ce n'est pas du tout normal.
L'échantillon d'origine se compose de quatre-vingt-dix-sept valeurs «0» et d'un «1», d'un «2» et d'un «100».
Voici le code (R) que j'ai exécuté pour générer l'intrigue ci-dessus:
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
Le problème est que dans ce cas, la taille de l'échantillon (100) est trop petite pour que le CLT s'applique avec ce type de forme de distribution; peu importe combien de fois nous le rééchantillons.
Cependant, si la taille de l'échantillon d'origine est beaucoup plus grande, la distribution de rééchantillonnage de l'échantillon signifie pour quelque chose comme cela sera plus normale (bien que toujours discrète).
Voici les ecdfs lors du rééchantillonnage des données ci-dessus (noir) et pour des valeurs dans les mêmes proportions mais avec dix fois plus de valeurs (rouge; c'est-à-dire n = 1000):
Comme nous le voyons, la fonction de distribution lors du rééchantillonnage du grand échantillon semble beaucoup plus normale.
si je devais rééchantillonner à plusieurs reprises à partir d'un ensemble de données et calculer la variance à chaque fois, ces variances suivraient-elles une certaine distribution
Non, pour la même raison, ce n'est pas nécessairement vrai pour la moyenne.
Cependant, le CLT s'applique également à la variance *; c'est juste que vous ne pouvez pas affirmer que le CLT s'applique au rééchantillonnage bootstrap simplement en prenant de nombreux rééchantillons. Si la taille de l'échantillon d' origine est suffisamment grande, cela peut (dans les bonnes conditions) avoir tendance à rendre la distribution de rééchantillonnage des moyennes (et des moments supérieurs, s'ils existent) relativement proche d'une distribution normale (par rapport à sa distribution dans des échantillons plus petits, à moins).
s2n= 1n∑ni = 1( xje- x¯)2yje= ( xje-x¯)2s2n= y¯ys2ns2n - 1s2ns2ns2n - 1