Dans quelle mesure le bootstrap se rapproche-t-il de la distribution d'échantillonnage d'un estimateur?

Ayant récemment étudié le bootstrap, j'ai posé une question conceptuelle qui me laisse toujours perplexe:

Vous avez une population et vous voulez connaître un attribut de population, c'est-à-dire $\theta=g(P)$ , où j'utilise $P$ pour représenter la population. Ce $\theta$ pourrait être la moyenne de la population par exemple. Habituellement, vous ne pouvez pas obtenir toutes les données de la population. Vous tirez donc un échantillon $X$ de taille $N$ de la population. Supposons que vous ayez un échantillon iid pour plus de simplicité. Ensuite , vous obtenez votre estimateur . Vous souhaitez utiliser pour tirer des conclusions sur , de sorte que vous voulez connaître la variabilité $\hat{\theta}=g(X)$ $\hat{\theta}$ $\theta$ $\hat{\theta}$ .

Tout d' abord, il y a une vraie distribution d'échantillonnage de . Sur le plan conceptuel, vous pouvez prélever de nombreux échantillons (chacun ayant une taille ) dans la population. Chaque fois que vous aurez une réalisation de puisque chaque fois que vous aurez un autre échantillon. Puis à la fin, vous serez en mesure de récupérer la vraie distribution de . Ok, ce au moins est la référence conceptuelle pour l' estimation de la distribution de . Permettez - moi de répéter: le but ultime est d'utiliser diverses méthodes pour estimer ou une approximation de la vraie répartition des $\hat{\theta}$ $N$ $\hat{\theta}=g(X)$ $\hat{\theta}$ $\hat{\theta}$ $\hat{\theta}$ .

Maintenant, voici la question. Habituellement, vous n'avez qu'un seul échantillon qui contient points de données. Ensuite , vous rééchantillonnez de cet échantillon à plusieurs reprises, et vous vous retrouverez avec une distribution d'amorçage de . Ma question est: à quel point est cette distribution bootstrap à la vraie distribution d'échantillonnage de ? Existe-t-il un moyen de le quantifier? $X$ $N$ $\hat{\theta}$ $\hat{\theta}$

bootstrap simulation resampling KevinKim
la source

Cette question très connexe contient une multitude d'informations supplémentaires, au point d'en faire éventuellement une copie.

Xi'an

Tout d'abord, merci à tous d'avoir répondu à mes questions aussi rapidement. C'est la première fois que j'utilise ce site Web. Je ne m'attendais pas à ce que ma question attire l'attention de quiconque honnêtement. J'ai une petite question ici, qu'est-ce que 'OP'? @ Silverfish

KevinKim

@Chen Jin: "OP" = affiche originale (c'est-à-dire vous!). Toutes mes excuses pour l'utilisation d'une abréviation, que j'accepte est potentiellement déroutante.

Silverfish

J'ai modifié le titre afin qu'il correspond davantage à votre affirmation selon laquelle « Ma question est: à quel point est - ce à la vraie distribution de

? Est - il possible de le quantifier? » N'hésitez pas à revenir en arrière si vous ne pensez pas que mon montage reflète votre intention.

\hat{θ}

$\hat\theta$

Silverfish

@Silverfish Merci beaucoup. Quand je commence cette affiche, je ne suis pas sûr de ma question. Ce nouveau titre est bon.

KevinKim

Réponses:

Dans la théorie de l'information, la manière typique de quantifier la "proximité" d'une distribution à une autre est d'utiliser la divergence KL

Essayons de l'illustrer avec un ensemble de données à longue traîne très asymétrique - les retards des arrivées d'avion à l'aéroport de Houston (du package hflights ). Soit l'estimateur moyenne. Tout d' abord, nous trouvons la distribution d' échantillonnage de , puis la distribution de bootstrap de $\hat \theta$ $\hat \theta$ $\hat \theta$

Voici l'ensemble de données:

entrez la description de l'image ici

La vraie moyenne est de 7,09 min.

Tout d' abord, nous faisons un certain nombre d'échantillons pour obtenir la distribution d'échantillonnage de , nous prenons un échantillon et prendre de nombreux échantillons bootstrap de celui - ci. $\hat \theta$

Par exemple, jetons un coup d'œil à deux distributions avec la taille d'échantillon 100 et 5000 répétitions. Nous voyons visuellement que ces distributions sont assez séparées, et la divergence KL est de 0,48.

entrez la description de l'image ici

Mais lorsque nous augmentons la taille de l'échantillon à 1000, ils commencent à converger (la divergence KL est de 0,11)

entrez la description de l'image ici

Et lorsque la taille de l'échantillon est de 5000, ils sont très proches (la divergence KL est de 0,01)

entrez la description de l'image ici

Ceci, bien sûr, dépend de quel échantillon bootstrap vous obtenez, mais je crois que vous pouvez voir que la divergence KL diminue à mesure que l' on augmente la taille de l' échantillon, et la distribution ainsi bootstrap de certaines approches échantillon en termes de KL Divergence. Pour être sûr, vous pouvez essayer de faire plusieurs bootstraps et prendre la moyenne de la divergence KL. $\hat \theta$ $\hat \theta$

Voici le code R de cette expérience: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794

Alexey Grigorev
la source

+1 et cela montre également que pour une taille d'échantillon donnée (comme par exemple 100), le biais d'amorçage peut être important et inévitable.

amibe dit Réintégrer Monica

Celui-ci est génial! Ainsi, afin de laisser la distribution de

à partir du bootstrap soit proche de la véritable distribution de

, nous avons besoin de grande taille de l' échantillon

droit? Pour toute taille d'échantillon fixe, la distribution générée à partir du bootstrap peut être très différente de la distribution TRUE mentionnée par @amoeba.

\hat{θ}

$\hat{\theta}$

\hat{θ}

$\hat{\theta}$

N

$N$

KevinKim

Ma prochaine question est: si j'ai fixé

assez grand, alors j'ai fait 2 bootstrap, un juste rééchantillonner

N

$N$

B = 10

$B=10$ fois, et l'autre rééchantillonnant

. Quelle est la différence entre la distribution de

sortant de ces 2 circuits fermés? Cette question est essentiellement demande quand nous fixons

, quel est le rôle joué par

pour générer la distribution de

. @Grigorev

B = 10000

$B=10000$

\hat{θ}

$\hat{\theta}$

N

$N$

B

$B$

\hat{θ}

$\hat{\theta}$

KevinKim

@Chen, mais la distribution de

est quelque chose que vous obtenez en faisant rééchantillons, non? Donc, la différence entre

est que dans un cas, vous obtenez

nombres pour construire votre distribution (pas beaucoup d'informations

estimation pas très fiable de son écart-type), et dans d'autres cas, vous obtenez

nombres (beaucoup plus fiable).

\hat{θ}

$\hat \theta$

B = 10

$B=10$

B = 10000

$B=10000$

10

$10$

\Rightarrow

$\Rightarrow$

10000

$10000$

amibe dit Reinstate Monica

@Chen, je pense que vous êtes un peu confus ou que vous n'êtes pas très clair sur ce

est censé être dans votre commentaire. Si vous rééchantillonnez

fois, vous obtenez un ensemble de

nombres. Comment est-ce une distribution? C'est un ensemble de chiffres! Ces chiffresproviennent dece que vous avez appelé

distribution. Les numéros plus vous obtenez, plus vous pouvez estimer

F_{5}

$F_5$

5

$5$

5

$5$

F_{B}

$F_B$

F_{B}

$F_B$

Amoeba dit Reinstate Monica

Bootstrap est basé sur la convergence de la fonction de répartition empirique à la vraie fonction de répartition, qui converge(lorsque va vers l'infini)vers pour chaque . D'où la convergence de la distribution bootstrap de

{\hat{F}}_{n} (x) = \frac{1}{n} \sum_{i = 1}^{n} I_{X_{i} \leq x} X_{i} \overset{iid}{\sim} F (x)

$\hat{F}_n(x) = \frac{1}{n}\sum_{i=1}^n\mathbb{I}_{X_i\le x}\qquad X_i\stackrel{\text{iid}}{\sim}F(x)$ $n$

F (x)

$F(x)$

x

$x$

est entraîné par cette convergence qui se produit à une vitesse

\hat{θ} (X_{1}, \dots, X_{n}) = g ({\hat{F}}_{n})

$\hat{\theta}(X_1,\ldots,X_n)=g(\hat{F}_n)$

pourchaque

, puisque

\sqrt{n}

$\sqrt{n}$

x

$x$

même si ce taux etlimiterdistribution ne transfère pas automatiquement

. Danspratique, pour évaluer la variabilité de l'approximation, vous pouvez produire une évaluation d'amorçage de la distribution de

\sqrt{n} {{\hat{F}}_{n} (x) - F (x)} \overset{dist}{⟶} N (0, F (x) [1 - F (x)])

$\sqrt{n}\{\hat{F}_n(x)-F(x)\}\stackrel{\text{dist}}{\longrightarrow}\mathsf{N}(0,F(x)[1-F(x)])$

g ({\hat{F}}_{n})

$g(\hat{F}_n)$

par double amorçage, c'est-à-dire en amorçant des évaluations d'amorçage.

g ({\hat{F}}_{n})

$g(\hat{F}_n)$

Comme une mise à jour, voici une utilisation illustration I dansclasse: enter image description here où les LHS compare le vrai cdf avec la fonctionrépartition empirique pour observations et les parcelles de rhs répliques des LHS, pour 250 échantillons différents, afin pour mesurer la variabilité de l'approximation cdf. Dans l'exemple, je connais la vérité et je peux donc simuler à partir de la vérité pour évaluer la variabilité. Dans une situation réaliste, je ne sais pas et donc je dois partir de au lieu de produire un graphique similaire. $F$ $\hat{F}_n$ $n=100$ $250$ $F$ $\hat{F}_n$

Mise à jour supplémentaire: Voici à quoi ressemble l'image du tube en partant du cdf empirique: enter image description here

Xi'an
la source

L'essentiel de cette réponse est que le bootstrap fonctionne car il s'agit d'une approximation à large échantillon . Je ne pense pas que ce point soit suffisamment souligné

shadowtalker

Je veux dire, "a souligné assez souvent en général"

shadowtalker

\hat{F}

$\hat{F}$

n = 100

$n=100$

F

$F$

n

$n$

F

$F$

@ Xi'an Très sympa! il serait encore plus agréable de combiner les 2e et 3e chiffres en un seul chiffre

KevinKim