Ok, c'est une question qui me tient éveillé la nuit.
La procédure de bootstrap peut-elle être interprétée comme une approximation de certaines procédures bayésiennes (à l’exception du bootstrap bayésien)?
J'aime beaucoup «l'interprétation» bayésienne des statistiques, que je trouve bien cohérente et facile à comprendre. Cependant, j’ai également un faible pour la procédure de bootstrap qui est si simple, mais qui donne des déductions raisonnables dans de nombreuses situations. Je serais plus heureux avec l'amorçage, cependant, si je savais que l'amorçage ressemblait à une distribution postérieure dans un sens.
Je connais le "bootstrap bayésien" (Rubin, 1981), mais de mon point de vue, cette version du bootstrap est aussi problématique que le bootstrap standard. Le problème réside dans l'hypothèse de modèle vraiment particulière que vous faites, à la fois lors du bootstrap classique et bayésien, c'est-à-dire que les valeurs possibles de la distribution ne sont que les valeurs que j'ai déjà vues. Comment ces hypothèses de modèle étranges peuvent-elles toujours produire les inférences très raisonnables que produisent les procédures bootstrap? Je cherchais des articles sur les propriétés du bootstrap (par exemple, Weng, 1989), mais je n’ai trouvé aucune explication claire qui me plaise.
Les références
Donald B. Rubin (1981). Le bootstrap bayésien. Ann. Statist. Volume 9, numéro 1, 130-134.
Chung-Sing Weng (1989). Sur une propriété asymptotique de second ordre de la moyenne bootstrap bayésienne. Les annales de la statistique , vol. 17, n ° 2, p. 705-710.
Réponses:
La section 8.4 des Eléments de l'apprentissage statistique de Hastie, Tibshirani et Friedman est intitulée "Relation entre le bootstrap et l'inférence bayésienne". C'est peut-être ce que vous recherchez. Je crois que ce livre est disponible gratuitement sur le site Web de Stanford, bien que je n’aie pas le lien en main.
Modifier:
Voici un lien vers le livre que les auteurs ont mis à disposition gratuitement en ligne:
http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Page 272, les auteurs écrivent:
Une autre pièce du puzzle se trouve dans cette question croisée validée qui mentionne l' inégalité de Dvoretzky – Kiefer – Wolfowitz qui "montre [...] que la fonction de distribution empirique converge uniformément vers la vraie fonction de distribution de manière exponentielle rapide en probabilité".
En résumé, le bootstrap non paramétrique pourrait être considéré comme une méthode asymptotique qui produit "une distribution postérieure non paramétrique (approximative) non informative pour notre paramètre" et où cette approximation s'améliore "exponentiellement vite" à mesure que le nombre d'échantillons augmente.
la source
C'est le dernier article que j'ai vu sur le sujet:
la source
Moi aussi, j'ai été séduit à la fois par le bootstrap et par le théorème de Bayes, mais je ne pouvais pas comprendre les justifications du bootstrap jusqu'à ce que je le regarde d'un point de vue bayésien. Ensuite, comme je l'explique ci-dessous, la distribution bootstrap peut être considérée comme une distribution bayésienne postérieure, ce qui rend la logique (a?) Évidente de l'initialisation, et a également l'avantage de clarifier les hypothèses retenues. Vous trouverez plus de détails sur l'argument ci-dessous, ainsi que sur les hypothèses retenues, dans https://arxiv.org/abs/1803.06214 (pages 22-26).
Par exemple, qui est configuré sur la feuille de calcul à l’ adresse http://woodm.myweb.port.ac.uk/SL/resample.xlsx (cliquez sur l’onglet Bootstrap en bas de l’écran), supposons que nous ayons un échantillon de 9 mesures avec une moyenne de 60. Lorsque j'ai utilisé le tableur pour produire 1000 rééchantillons avec remplacement à partir de cet échantillon et arrondi les moyennes au nombre pair le plus proche, 82 de ces moyennes étaient 54. L'idée de bootstrap est que nous utiliser l'échantillon comme une population "fictive" pour voir à quel point les moyennes des échantillons de 9 sont susceptibles d'être variables, ce qui suggère que la probabilité qu'un échantillon soit en moyenne inférieur de 6 à la moyenne de la population (dans ce cas, la population simulée basée sur la échantillon avec une moyenne de 60) est de 8,2%. Et nous pouvons arriver à une conclusion similaire sur les autres barres de l'histogramme de rééchantillonnage.
Imaginons à présent que la moyenne de la population réelle soit de 66. Si tel est le cas, notre estimation de la probabilité que la moyenne de l'échantillon soit égale à 60 (soit les données) est de 8,2% (en utilisant la conclusion du paragraphe ci-dessus). que 60 est 6 inférieur à la moyenne de population hypothétique de 66). Écrivons ceci comme
P (Donnée donnée = 66) = 8,2%
et cette probabilité correspond à une valeur x de 54 sur la distribution de rééchantillonnage. Le même type d'argument s'applique à chaque moyenne de population possible comprise entre 0, 2, 4 ... 100. Dans chaque cas, la probabilité provient de la distribution de rééchantillonnage - mais cette distribution se reflète dans la moyenne de 60.
Appliquons maintenant le théorème de Bayes. La mesure en question ne peut prendre que des valeurs comprises entre 0 et 100. Par conséquent, si vous arrondissez au nombre pair le plus proche, les possibilités pour la moyenne de la population sont 0, 2, 4, 6, ... 100. Si nous supposons que la distribution antérieure est plate, chacune d’elles a une probabilité antérieure de 2% (à 1 dp), et le théorème de Bayes nous dit que
P (PopMean = 66 Données données) = 8,2% * 2% / P (Données)
où
P (Données) = P (PopMean = 0 Données données) * 2% + P (PopMean = 2 Données données) * 2% + ... + P (PopMean = 100 Données données) * 2%
Nous pouvons maintenant annuler les 2% et nous rappeler que la somme des probabilités doit être égale à 1 puisque les probabilités sont simplement celles de la distribution de rééchantillonnage. Ce qui nous laisse avec la conclusion que
P (PopMean = 66) = 8,2%
En se souvenant que 8,2% est la probabilité de la distribution de rééchantillonnage correspondant à 54 (au lieu de 66), la distribution postérieure est simplement la distribution de rééchantillonnage reflétée dans la moyenne de l'échantillon (60). En outre, si la distribution de rééchantillonnage est symétrique en ce sens que les asymétries sont aléatoires - comme c'est le cas dans beaucoup d'autres cas, nous pouvons considérer que la distribution de rééchantillonnage est identique à la distribution de probabilité postérieure.
Cet argument repose sur diverses hypothèses, la principale étant que la distribution antérieure est uniforme. Celles-ci sont détaillées plus en détail dans l'article cité ci-dessus.
la source