Dans quelle mesure le bootstrap se rapproche-t-il de la distribution d'échantillonnage d'un estimateur?

29

Ayant récemment étudié le bootstrap, j'ai posé une question conceptuelle qui me laisse toujours perplexe:

Vous avez une population et vous voulez connaître un attribut de population, c'est-à-dire θ=g(P) , où j'utilise P pour représenter la population. Ce θ pourrait être la moyenne de la population par exemple. Habituellement, vous ne pouvez pas obtenir toutes les données de la population. Vous tirez donc un échantillon X de taille N de la population. Supposons que vous ayez un échantillon iid pour plus de simplicité. Ensuite , vous obtenez votre estimateur θ = g ( X ) . Vous souhaitez utiliser θ pour tirer des conclusions sur θ , de sorte que vous voulez connaître la variabilité desθ^=g(X)θ^θθ^ .

Tout d' abord, il y a une vraie distribution d'échantillonnage de θ . Sur le plan conceptuel, vous pouvez prélever de nombreux échantillons (chacun ayant une taille N ) dans la population. Chaque fois que vous aurez une réalisation de θ = g ( X ) puisque chaque fois que vous aurez un autre échantillon. Puis à la fin, vous serez en mesure de récupérer la vraie distribution de θ . Ok, ce au moins est la référence conceptuelle pour l' estimation de la distribution de θ . Permettez - moi de répéter: le but ultime est d'utiliser diverses méthodes pour estimer ou une approximation de la vraie répartition desθ^Nθ^=g(X)θ^θ^θ^ .

Maintenant, voici la question. Habituellement, vous n'avez qu'un seul échantillon qui contient N points de données. Ensuite , vous rééchantillonnez de cet échantillon à plusieurs reprises, et vous vous retrouverez avec une distribution d'amorçage de θ . Ma question est: à quel point est cette distribution bootstrap à la vraie distribution d'échantillonnage de θ ? Existe-t-il un moyen de le quantifier?XNθ^θ^

KevinKim
la source
1
Cette question très connexe contient une multitude d'informations supplémentaires, au point d'en faire éventuellement une copie.
Xi'an
Tout d'abord, merci à tous d'avoir répondu à mes questions aussi rapidement. C'est la première fois que j'utilise ce site Web. Je ne m'attendais pas à ce que ma question attire l'attention de quiconque honnêtement. J'ai une petite question ici, qu'est-ce que 'OP'? @ Silverfish
KevinKim
@Chen Jin: "OP" = affiche originale (c'est-à-dire vous!). Toutes mes excuses pour l'utilisation d'une abréviation, que j'accepte est potentiellement déroutante.
Silverfish
1
J'ai modifié le titre afin qu'il correspond davantage à votre affirmation selon laquelle « Ma question est: à quel point est - ce à la vraie distribution de θ ? Est - il possible de le quantifier? » N'hésitez pas à revenir en arrière si vous ne pensez pas que mon montage reflète votre intention. θ^
Silverfish
@Silverfish Merci beaucoup. Quand je commence cette affiche, je ne suis pas sûr de ma question. Ce nouveau titre est bon.
KevinKim

Réponses:

20

Dans la théorie de l'information, la manière typique de quantifier la "proximité" d'une distribution à une autre est d'utiliser la divergence KL

Essayons de l'illustrer avec un ensemble de données à longue traîne très asymétrique - les retards des arrivées d'avion à l'aéroport de Houston (du package hflights ). Soit θ l'estimateur moyenne. Tout d' abord, nous trouvons la distribution d' échantillonnage de θ , puis la distribution de bootstrap de θθ^θ^θ^

Voici l'ensemble de données:

entrez la description de l'image ici

La vraie moyenne est de 7,09 min.

Tout d' abord, nous faisons un certain nombre d'échantillons pour obtenir la distribution d'échantillonnage de θ , nous prenons un échantillon et prendre de nombreux échantillons bootstrap de celui - ci.θ^

Par exemple, jetons un coup d'œil à deux distributions avec la taille d'échantillon 100 et 5000 répétitions. Nous voyons visuellement que ces distributions sont assez séparées, et la divergence KL est de 0,48.

entrez la description de l'image ici

Mais lorsque nous augmentons la taille de l'échantillon à 1000, ils commencent à converger (la divergence KL est de 0,11)

entrez la description de l'image ici

Et lorsque la taille de l'échantillon est de 5000, ils sont très proches (la divergence KL est de 0,01)

entrez la description de l'image ici

Ceci, bien sûr, dépend de quel échantillon bootstrap vous obtenez, mais je crois que vous pouvez voir que la divergence KL diminue à mesure que l' on augmente la taille de l' échantillon, et la distribution ainsi bootstrap de θ certaines approches échantillon θ en termes de KL Divergence. Pour être sûr, vous pouvez essayer de faire plusieurs bootstraps et prendre la moyenne de la divergence KL.θ^θ^

Voici le code R de cette expérience: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794

Alexey Grigorev
la source
5
+1 et cela montre également que pour une taille d'échantillon donnée (comme par exemple 100), le biais d'amorçage peut être important et inévitable.
amibe dit Réintégrer Monica
Celui-ci est génial! Ainsi, afin de laisser la distribution de θ à partir du bootstrap soit proche de la véritable distribution de θ , nous avons besoin de grande taille de l' échantillon N droit? Pour toute taille d'échantillon fixe, la distribution générée à partir du bootstrap peut être très différente de la distribution TRUE mentionnée par @amoeba. θ^θ^N
KevinKim
Ma prochaine question est: si j'ai fixé assez grand, alors j'ai fait 2 bootstrap, un juste rééchantillonner B = 10NB=10 fois, et l'autre rééchantillonnant . Quelle est la différence entre la distribution de θ sortant de ces 2 circuits fermés? Cette question est essentiellement demande quand nous fixons N , quel est le rôle joué par B pour générer la distribution de θ . @GrigorevB=10000θ^NBθ^
KevinKim
1
@Chen, mais la distribution de est quelque chose que vous obtenez en faisant rééchantillons, non? Donc, la différence entreB=10etB=10000est que dans un cas, vous obtenez10nombres pour construire votre distribution (pas beaucoup d'informationsestimation pas très fiable de son écart-type), et dans d'autres cas, vous obtenez10000nombres (beaucoup plus fiable). θ^B=10B=100001010000
amibe dit Reinstate Monica
1
@Chen, je pense que vous êtes un peu confus ou que vous n'êtes pas très clair sur ce est censé être dans votre commentaire. Si vous rééchantillonnez 5 fois, vous obtenez un ensemble de 5 nombres. Comment est-ce une distribution? C'est un ensemble de chiffres! Ces chiffresproviennent dece que vous avez appelé F B distribution. Les numéros plus vous obtenez, plus vous pouvez estimer F B . F555FBFB
Amoeba dit Reinstate Monica
23

Bootstrap est basé sur la convergence de la fonction de répartition empirique à la vraie fonction de répartition, qui converge(lorsque n va vers l'infini)vers F ( x ) pour chaque x . D'où la convergence de la distribution bootstrap de

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)x est entraîné par cette convergence qui se produit à une vitesseθ^(X1,,Xn)=g(F^n) pourchaquex, puisquen xmême si ce taux etlimiterdistribution ne transfère pas automatiquementg( F n). Danspratique, pour évaluer la variabilité de l'approximation, vous pouvez produire une évaluation d'amorçage de la distribution deg( F n
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
g(F^n) par double amorçage, c'est-à-dire en amorçant des évaluations d'amorçage.g(F^n)

Comme une mise à jour, voici une utilisation illustration I dansclasse: enter image description here où les LHS compare le vrai cdf avec la fonctionrépartition empirique F n pour n = 100 observations et les parcelles de rhs 250 répliques des LHS, pour 250 échantillons différents, afin pour mesurer la variabilité de l'approximation cdf. Dans l'exemple, je connais la vérité et je peux donc simuler à partir de la vérité pour évaluer la variabilité. Dans une situation réaliste, je ne sais pas F et donc je dois partir de F n au lieu de produire un graphique similaire.FF^nn=100250FF^n

Mise à jour supplémentaire: Voici à quoi ressemble l'image du tube en partant du cdf empirique: enter image description here

Xi'an
la source
5
L'essentiel de cette réponse est que le bootstrap fonctionne car il s'agit d'une approximation à large échantillon . Je ne pense pas que ce point soit suffisamment souligné
shadowtalker
2
Je veux dire, "a souligné assez souvent en général"
shadowtalker
F^n=100
3
FnF
@ Xi'an Très sympa! il serait encore plus agréable de combiner les 2e et 3e chiffres en un seul chiffre
KevinKim