Est-il possible d'interpréter le bootstrap d'un point de vue bayésien?

43

Ok, c'est une question qui me tient éveillé la nuit.

La procédure de bootstrap peut-elle être interprétée comme une approximation de certaines procédures bayésiennes (à l’exception du bootstrap bayésien)?

J'aime beaucoup «l'interprétation» bayésienne des statistiques, que je trouve bien cohérente et facile à comprendre. Cependant, j’ai également un faible pour la procédure de bootstrap qui est si simple, mais qui donne des déductions raisonnables dans de nombreuses situations. Je serais plus heureux avec l'amorçage, cependant, si je savais que l'amorçage ressemblait à une distribution postérieure dans un sens.

Je connais le "bootstrap bayésien" (Rubin, 1981), mais de mon point de vue, cette version du bootstrap est aussi problématique que le bootstrap standard. Le problème réside dans l'hypothèse de modèle vraiment particulière que vous faites, à la fois lors du bootstrap classique et bayésien, c'est-à-dire que les valeurs possibles de la distribution ne sont que les valeurs que j'ai déjà vues. Comment ces hypothèses de modèle étranges peuvent-elles toujours produire les inférences très raisonnables que produisent les procédures bootstrap? Je cherchais des articles sur les propriétés du bootstrap (par exemple, Weng, 1989), mais je n’ai trouvé aucune explication claire qui me plaise.

Les références

Donald B. Rubin (1981). Le bootstrap bayésien. Ann. Statist. Volume 9, numéro 1, 130-134.

Chung-Sing Weng (1989). Sur une propriété asymptotique de second ordre de la moyenne bootstrap bayésienne. Les annales de la statistique , vol. 17, n ° 2, p. 705-710.

Rasmus Bååth
la source
3
Je viens d'écrire un article sur "le bootstrap en tant que modèle bayésien" ( sumsar.net/blog/2015/04/ ) qui explore les "explications" bayésiennes du bootstrap. Cela ne répond pas directement aux questions ci-dessus, mais j'espère que cela clarifie ce qu'est le bootstrap et ce qu'il fait.
Rasmus Bååth le
Lire muliere et secchi (1996) inférence prédictive bayésienne non paramétrique et techniques de bootstrap. Thay adresse exactement votre point!

Réponses:

30

La section 8.4 des Eléments de l'apprentissage statistique de Hastie, Tibshirani et Friedman est intitulée "Relation entre le bootstrap et l'inférence bayésienne". C'est peut-être ce que vous recherchez. Je crois que ce livre est disponible gratuitement sur le site Web de Stanford, bien que je n’aie pas le lien en main.

Modifier:

Voici un lien vers le livre que les auteurs ont mis à disposition gratuitement en ligne:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

Page 272, les auteurs écrivent:

En ce sens, la distribution bootstrap représente une distribution postérieure non informative (approximative) non informative pour notre paramètre. Mais cette distribution bootstrap est obtenue sans douleur - sans avoir à spécifier formellement un préalable et sans avoir à échantillonner à partir de la distribution postérieure. Par conséquent, nous pourrions penser à la distribution bootstrap comme un Bayes postérieur de «pauvre». En perturbant les données, le bootstrap simule l’effet bayésien de la perturbation des paramètres et est généralement beaucoup plus simple à réaliser.

Une autre pièce du puzzle se trouve dans cette question croisée validée qui mentionne l' inégalité de Dvoretzky – Kiefer – Wolfowitz qui "montre [...] que la fonction de distribution empirique converge uniformément vers la vraie fonction de distribution de manière exponentielle rapide en probabilité".

En résumé, le bootstrap non paramétrique pourrait être considéré comme une méthode asymptotique qui produit "une distribution postérieure non paramétrique (approximative) non informative pour notre paramètre" et où cette approximation s'améliore "exponentiellement vite" à mesure que le nombre d'échantillons augmente.

EdM
la source
3
Bien que nous apprécions toujours les références à des documents pertinents, cette réponse serait grandement améliorée si un bref résumé de cette section était inclus.
cardinal
1
Le dernier bit de cette section pourrait être plus utile: Le bootstrap est une distribution a posteriori non paramétrique, non informative, pour le paramètre estimé. Toute la section vaut la peine d'être lue.
Fraijo
2
Merci pour le lien! Si je lis Hastie et al. à droite, ils montrent une correspondance entre le boostrap non paramétrique et le bootstrap bayésien et prétendent que le premier se rapproche du second. Ils n'écrivent pas beaucoup sur la raison pour laquelle le bootstrap (bayésien ou non) donne lieu à des inférences sensées. J'espérais quelque chose comme: "Dans [certaines circonstances générales], le bootstrap se rapproche de la véritable distribution a posteriori du paramètre / statistique avec une erreur qui est [quelque chose] et qui dépend de [ceci et cela]".
Rasmus Bååth
Merci de l'aide pour améliorer ma réponse. L’explication la plus claire que j’ai entendu expliquer pourquoi le bootstrap fonctionne est que l’échantillon que vous venez de collecter est la meilleure représentation de votre population. Mais je ne suis pas assez probabiliste pour le dire plus formellement.
EdM
Si je me souviens bien, ils avancent cet argument, amorcent un NN et passent à la crème par un NN entièrement bayésien de Radford Neal. Je pense que cela dit quelque chose, je ne sais pas quoi.
mec
3

C'est le dernier article que j'ai vu sur le sujet:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}
Frank Harrell
la source
2
Mon interprétation du document est qu’il décrit une méthode de bootstrap pour calculer la distribution postérieure d’un modèle spécifié, c’est une méthode qui peut être utilisée à la place de l’échantillonnage de métropole, par exemple. Je ne vois pas que le papier discute de la relation entre les hypothèses du modèle bootstrap non paramétrique et l'estimation bayésienne ...
Rasmus Bååth
1
Il prétend faire cela. Je n'ai pas lu le papier en détail.
Frank Harrell
5
Frank: Je n'ai pas beaucoup lu cet article d'Efron. Ce qu'il fait peut être considéré comme un simple échantillonneur d'importance séquentiel qui part de la probabilité et tente d'atteindre l'arrière-train (ce qui fonctionnera souvent). L'objectif de Rubin dans le document de 1981 était de mettre en doute le caractère approprié du bootstrap, mais celui d'Efron est apparemment parvenu au point de vue opposé. David Draper l'a révisé cet été dans son cours JSM et a conclu que c'était mauvais sauf lorsque vous avez la possibilité de voir la plupart des possibilités de l'échantillon. Mais voir ici normaldeviate.wordpress.com/2013/06/12/…
phaneron
1

Moi aussi, j'ai été séduit à la fois par le bootstrap et par le théorème de Bayes, mais je ne pouvais pas comprendre les justifications du bootstrap jusqu'à ce que je le regarde d'un point de vue bayésien. Ensuite, comme je l'explique ci-dessous, la distribution bootstrap peut être considérée comme une distribution bayésienne postérieure, ce qui rend la logique (a?) Évidente de l'initialisation, et a également l'avantage de clarifier les hypothèses retenues. Vous trouverez plus de détails sur l'argument ci-dessous, ainsi que sur les hypothèses retenues, dans https://arxiv.org/abs/1803.06214 (pages 22-26).

Par exemple, qui est configuré sur la feuille de calcul à l’ adresse http://woodm.myweb.port.ac.uk/SL/resample.xlsx (cliquez sur l’onglet Bootstrap en bas de l’écran), supposons que nous ayons un échantillon de 9 mesures avec une moyenne de 60. Lorsque j'ai utilisé le tableur pour produire 1000 rééchantillons avec remplacement à partir de cet échantillon et arrondi les moyennes au nombre pair le plus proche, 82 de ces moyennes étaient 54. L'idée de bootstrap est que nous utiliser l'échantillon comme une population "fictive" pour voir à quel point les moyennes des échantillons de 9 sont susceptibles d'être variables, ce qui suggère que la probabilité qu'un échantillon soit en moyenne inférieur de 6 à la moyenne de la population (dans ce cas, la population simulée basée sur la échantillon avec une moyenne de 60) est de 8,2%. Et nous pouvons arriver à une conclusion similaire sur les autres barres de l'histogramme de rééchantillonnage.

Imaginons à présent que la moyenne de la population réelle soit de 66. Si tel est le cas, notre estimation de la probabilité que la moyenne de l'échantillon soit égale à 60 (soit les données) est de 8,2% (en utilisant la conclusion du paragraphe ci-dessus). que 60 est 6 inférieur à la moyenne de population hypothétique de 66). Écrivons ceci comme

P (Donnée donnée = 66) = 8,2%

et cette probabilité correspond à une valeur x de 54 sur la distribution de rééchantillonnage. Le même type d'argument s'applique à chaque moyenne de population possible comprise entre 0, 2, 4 ... 100. Dans chaque cas, la probabilité provient de la distribution de rééchantillonnage - mais cette distribution se reflète dans la moyenne de 60.

Appliquons maintenant le théorème de Bayes. La mesure en question ne peut prendre que des valeurs comprises entre 0 et 100. Par conséquent, si vous arrondissez au nombre pair le plus proche, les possibilités pour la moyenne de la population sont 0, 2, 4, 6, ... 100. Si nous supposons que la distribution antérieure est plate, chacune d’elles a une probabilité antérieure de 2% (à 1 dp), et le théorème de Bayes nous dit que

P (PopMean = 66 Données données) = 8,2% * 2% / P (Données)

P (Données) = P (PopMean = 0 Données données) * 2% + P (PopMean = 2 Données données) * 2% + ... + P (PopMean = 100 Données données) * 2%

Nous pouvons maintenant annuler les 2% et nous rappeler que la somme des probabilités doit être égale à 1 puisque les probabilités sont simplement celles de la distribution de rééchantillonnage. Ce qui nous laisse avec la conclusion que

P (PopMean = 66) = 8,2%

En se souvenant que 8,2% est la probabilité de la distribution de rééchantillonnage correspondant à 54 (au lieu de 66), la distribution postérieure est simplement la distribution de rééchantillonnage reflétée dans la moyenne de l'échantillon (60). En outre, si la distribution de rééchantillonnage est symétrique en ce sens que les asymétries sont aléatoires - comme c'est le cas dans beaucoup d'autres cas, nous pouvons considérer que la distribution de rééchantillonnage est identique à la distribution de probabilité postérieure.

Cet argument repose sur diverses hypothèses, la principale étant que la distribution antérieure est uniforme. Celles-ci sont détaillées plus en détail dans l'article cité ci-dessus.

Michael Wood
la source
Il existe une sorte de bootstrap bayésien introduit par Rubin. Mais je ne pense pas que ce soit ce à quoi vous faites référence. Le bootstrap ordinaire introduit par Efron est vraiment un concept fréquentiste.
Michael R. Chernick