J'apprécie l'utilité du bootstrap pour obtenir des estimations de l'incertitude, mais une chose qui m'a toujours dérangé à ce sujet est que la distribution correspondant à ces estimations est la distribution définie par l'échantillon. En général, il semble être une mauvaise idée de croire que nos fréquences d'échantillonnage ressemblent exactement à la distribution sous-jacente, alors pourquoi est-il judicieux / acceptable de dériver des estimations de l'incertitude basées sur une distribution où les fréquences d'échantillonnage définissent la distribution sous-jacente?
D'un autre côté, cela n'est peut-être pas pire (peut-être meilleur) que les autres hypothèses de répartition que nous faisons habituellement, mais j'aimerais quand même comprendre un peu mieux la justification.
la source
Réponses:
Il existe plusieurs manières d’appliquer le bootstrap. Les deux approches les plus fondamentales sont ce qui est considéré comme le bootstrap "non paramétrique" et "paramétrique". La seconde suppose que le modèle que vous utilisez est (essentiellement) correct.
Inégalité Dvoretzky – Kiefer – Wolfowitz
Cela montre que la fonction de distribution empirique converge uniformément vers la vraie fonction de distribution de manière exponentielle rapide en probabilité. En effet, cette inégalité couplée au lemme de Borel – Cantelli montre immédiatement que presque sûrement.supx∈R|F^n(x)−F(x)|→0
La forme de ne comporte aucune condition supplémentaire pour garantir cette convergence.F
Heuristiquement, alors, si nous sommes intéressés par un de la fonction de distribution qui est lisse , alors nous nous attendons à ce que soit proche de .T(F) T(F^n) T(F)
(Pointwise) Non-biais deF^n(x)
Par simple linéarité d’attente et par définition de , pour chaque ,F^n(x) x∈R
Supposons que nous nous intéressions à la moyenne . Ensuite, l'impartialité de la mesure empirique s'étend à l'impartialité des fonctionnelles linéaires de la mesure empirique. Donc,μ=T(F)
Donc est correct en moyenne et puisque s'approche rapidement de , alors (de manière heuristique), s'approche rapidement de .T(F^n) Fn^ F T(F^n) T(F)
Pour construire un intervalle de confiance ( ce qui est essentiellement le but du bootstrap ), nous pouvons utiliser le théorème de la limite centrale, la cohérence des quantiles empiriques et la méthode delta comme outils pour passer de simples fonctionnelles linéaires à des statistiques d'intérêt plus complexes. .
Bonnes références sont
la source
Voici une approche différente pour y penser:
Commencez par la théorie où nous connaissons la vraie distribution, nous pouvons découvrir les propriétés des statistiques d'échantillon en simulant à partir de la vraie distribution. C’est ainsi que Gosset a développé la distribution t et le test t, en échantillonnant à partir de normales connues et en calculant les statistiques. C'est en fait une forme de bootstrap paramétrique. Notez que nous simulons pour découvrir le comportement des statistiques (parfois par rapport aux paramètres).
Maintenant, si nous ne connaissons pas la distribution de la population, nous avons une estimation de la distribution dans la distribution empirique et nous pouvons échantillonner à partir de celle-ci. En échantillonnant à partir de la distribution empirique (qui est connue), nous pouvons voir la relation entre les échantillons bootstrap et la distribution empirique (la population de l'échantillon bootstrap). Nous en déduisons maintenant que la relation entre les échantillons bootstrap et la distribution empirique est la même que pour l'échantillon à la population inconnue. Bien entendu, la qualité de cette relation dépendra de la représentativité de l’échantillon de la population.
Rappelez-vous que nous n'utilisons pas les moyennes des échantillons bootstrap pour estimer la moyenne de la population, nous utilisons la moyenne de l'échantillon pour cela (ou quelle que soit la statistique d'intérêt). Mais nous utilisons les échantillons bootstrap pour estimer les propriétés (propagation, biais) du processus d’échantillonnage. Et en utilisant l’échantillonnage d’une population connue (qui, nous l’espérons, est représentatif de la population d’intérêt), vous vous rendrez compte que les effets de l’échantillonnage ont un sens et sont beaucoup moins circulaires.
la source
L'astuce principale (et l'aiguillon) du démarrage est qu'il s'agit d'une théorie asymptotique: si vous avez un échantillon infini pour commencer, la distribution empirique sera si proche de la distribution réelle que la différence est négligeable.
Malheureusement, l’amorçage s’applique souvent dans des échantillons de petite taille. Il est généralement admis que l’amorçage s’est avéré efficace dans certaines situations très non asymptotiques, mais soyez prudent. Si la taille de votre échantillon est trop petite, vous travaillez en fait de manière conditionnelle sur votre échantillon, ce qui constitue une "bonne représentation" de la vraie distribution, ce qui conduit très facilement à un raisonnement en cercles :-)
la source
Je soutiendrais non pas du point de vue "asymptotiquement, la distribution empirique sera proche de la distribution réelle" (ce qui est bien sûr très vrai), mais du "point de vue à long terme". En d' autres termes, dans un cas particulier, la distribution empirique dérivée par bootstrapping sera éteint (parfois trop décalée de cette façon, décalée parfois trop loin de cette façon, parfois trop biaisé de cette façon, parfois trop biaisé de cette façon), mais en moyenne il sera une bonne approximation de la distribution réelle. De même, vos estimations d'incertitude dérivées de la distribution bootstrap seront fausses dans tous les cas mais, encore une fois, en moyenne, elles seront (approximativement) correctes.
la source