Le rééchantillonnage bootstrap peut-il être utilisé pour calculer un intervalle de confiance pour la variance d'un ensemble de données?

9

Je sais que si vous rééchantillonnez à plusieurs reprises à partir d'un ensemble de données et calculez la moyenne à chaque fois, ces moyennes suivront une distribution normale (par le CLT). Ainsi, vous pouvez calculer un intervalle de confiance sur la moyenne de l'ensemble de données sans faire d'hypothèses sur la distribution de probabilité de l'ensemble de données.

Je me demandais si vous pouviez faire quelque chose de similaire pour la variance. Autrement dit, si je devais rééchantillonner à plusieurs reprises à partir d'un ensemble de données et calculer la variance à chaque fois, ces variances suivraient-elles une certaine distribution (quelle que soit la distribution de probabilité d'origine de l'ensemble de données)?

Je sais que si cet ensemble de données d'origine est normal, les variances suivraient une distribution chi carré. Mais qu'en est-il si ce n'est pas normal?

casandra
la source

Réponses:

10

Le rééchantillonnage Bootstrap peut-il être utilisé pour calculer un intervalle de confiance pour la variance d'un ensemble de données?

Oui, tout comme avec de nombreuses autres statistiques.

Je sais que si vous rééchantillonnez à plusieurs reprises à partir d'un ensemble de données et calculez la moyenne à chaque fois, ces moyennes suivront une distribution normale (par le CLT).

Il n'est pas toujours vrai que si vous démarrez un moyen, le moyen de démarrage suivra une distribution normale, même pour les distributions pour lesquelles le CLT s'applique.

n=100

entrez la description de l'image ici

Ce n'est pas du tout normal.

L'échantillon d'origine se compose de quatre-vingt-dix-sept valeurs «0» et d'un «1», d'un «2» et d'un «100».

Voici le code (R) que j'ai exécuté pour générer l'intrigue ci-dessus:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

Le problème est que dans ce cas, la taille de l'échantillon (100) est trop petite pour que le CLT s'applique avec ce type de forme de distribution; peu importe combien de fois nous le rééchantillons.

Cependant, si la taille de l'échantillon d'origine est beaucoup plus grande, la distribution de rééchantillonnage de l'échantillon signifie pour quelque chose comme cela sera plus normale (bien que toujours discrète).

Voici les ecdfs lors du rééchantillonnage des données ci-dessus (noir) et pour des valeurs dans les mêmes proportions mais avec dix fois plus de valeurs (rouge; c'est-à-dire n = 1000):

entrez la description de l'image ici

Comme nous le voyons, la fonction de distribution lors du rééchantillonnage du grand échantillon semble beaucoup plus normale.

si je devais rééchantillonner à plusieurs reprises à partir d'un ensemble de données et calculer la variance à chaque fois, ces variances suivraient-elles une certaine distribution

Non, pour la même raison, ce n'est pas nécessairement vrai pour la moyenne.

Cependant, le CLT s'applique également à la variance *; c'est juste que vous ne pouvez pas affirmer que le CLT s'applique au rééchantillonnage bootstrap simplement en prenant de nombreux rééchantillons. Si la taille de l'échantillon d' origine est suffisamment grande, cela peut (dans les bonnes conditions) avoir tendance à rendre la distribution de rééchantillonnage des moyennes (et des moments supérieurs, s'ils existent) relativement proche d'une distribution normale (par rapport à sa distribution dans des échantillons plus petits, à moins).

sn2=1nje=1n(Xje-X¯)2yje=(Xje-X¯)2sn2=y¯ysn2sn-12sn2sn2sn-12

Glen_b -Reinstate Monica
la source