Bootstrapping vs Bayesian Bootstrapping conceptuellement?

21

J'ai du mal à comprendre ce qu'est un processus d'amorçage bayésien et en quoi cela différerait de votre amorçage normal. Et si quelqu'un pouvait proposer un examen intuitif / conceptuel et une comparaison des deux, ce serait formidable.

Prenons un exemple.

Disons que nous avons un ensemble de données X qui est [1,2,5,7,3].

Si nous échantillonnons avec remplacement plusieurs fois pour créer des tailles d'échantillon égales à la taille de X (donc [7,7,2,5,7], [3,5,2,2,7], etc.), et alors nous calculer les moyennes de chacun, est-ce que la distribution bootstrap de l'échantillon signifie?

Quelle serait la distribution bayésienne du bootstrap?

Et comment la distribution bayésienne du bootstrap des autres paramètres (variance, etc.) se fait-elle de la même manière?

SpicyClubSauce
la source
4
Voir sumsar.net/blog/2015/04/… et projecteuclid.org/euclid.aos/1176345338 , peut-être que @ rasmus-bååth peut vous répondre;)
Tim

Réponses:

27

Le bootstrap (fréquentiste) prend les données comme une approximation raisonnable de la distribution inconnue de la population. Par conséquent, la distribution d'échantillonnage d'une statistique (fonction des données) peut être approximée en rééchantillonnant à plusieurs reprises les observations avec remplacement et en calculant la statistique pour chaque échantillon.

Soit les données d'origine. (Dans l'exemple donné, n = 5. ) Soit y b = ( y b 1 , , y b n ) un échantillon bootstrap. Un tel échantillon aura probablement quelques observations répétées une ou plusieurs fois et d'autres observations seront absentes. La moyenne de l'échantillon bootstrap est donnée par m b = 1y=(y1,,yn)n=5yb=(y1b,,ynb)C'est la distribution dembsur un certain nombre de réplications bootstrap qui est utilisée pour approximer la distribution d'échantillonnage de la population inconnue.

mb=1ni=1nyib.
mb

Afin de comprendre le lien entre le bootstrap fréquentiste et le bootstrap bayésien, il est instructif de voir comment calculer dans une perspective différente.mb

Dans chaque échantillon bootstrap , chaque observation y i se produit de 0 à n fois. Soit h b i désignent le nombre de fois y i se produit en y b , et soit h b = ( h b 1 , ... , h b n ) . Ainsi h b i{ 0 , 1 , , n - 1 , n }ybyinhibyiybhb=(h1b,,hnb)hib{0,1,,n1,n}et . Étant donné h b , nous pouvons construire une collection de poids non négatifs qui se résument à un: w b = h b / n , où w b i = h b i / n . Avec cette notation, nous pouvons ré-exprimer la moyenne de l'échantillon bootstrap comme m b = n i = 1 w b ii=1nhib=nhbwb=hb/nwib=hib/n

mb=i=1nwibyi.

La façon dont les observations sont choisies pour un échantillon bootstrap détermine la distribution conjointe de . En particulier, h b a une distribution multinomiale et donc ( nwbhbPar conséquent, nous pouvons calculer m b en tirant w b de sa distribution et en calculant le produit scalaire avec y . Dans cette nouvelle perspective, il apparaît que les observations sontfixesalors que les poids varient.

(nwb)Multinomial(n,(1/n)i=1n).
mbwby

Dans l'inférence bayésienne, les observations sont en effet considérées comme fixes, donc cette nouvelle perspective semble conforme à l'approche bayésienne. En effet, le calcul de la moyenne selon le bootstrap bayésien ne diffère que par la distribution des poids. (Néanmoins, d'un point de vue conceptuel, le bootstrap bayésien est très différent de la version fréquentiste.) Les données sont fixes et les poids w sont les paramètres inconnus. Nous pouvons être intéressés par certaines fonctions des données qui dépendent des paramètres inconnus: μ = n i = 1 w iyw

μ=i=1nwiyi.

Voici un aperçu miniature du modèle derrière le bootstrap bayésien: La distribution d'échantillonnage pour les observations est multinomiale et l'a priori pour les poids est une distribution de Dirichlet limite qui met tout son poids sur les sommets du simplexe. (Certains auteurs appellent ce modèle le modèle de vraisemblance multinomiale .)

wDirichlet(1,,1).

μwy

i=1nwig(yi,θ)=0_,
g(yi,θ)θ0_θywwvraisemblance empirique et avec méthode généralisée des moments (GMM).)

i=1nwi(yiμ)=0.
θ=(μ,v)
g(yi,θ)=(yiμ(yiμ)2v).
mef
la source
1
Merci pour la description très détaillée. Personnellement, j'apprécierais une brève déclaration sur le moment de choisir chacun.
ErichBSchulz