On prétend souvent que le bootstrap peut fournir une estimation du biais dans un estimateur.
Si t est l'estimation pour une statistique, et sont les répliques bootstrap (avec ), alors l'estimation bootstrap de biais est qui semble extrêmement simple et puissant, au point d'être troublant.
Je ne peux pas comprendre comment cela est possible sans avoir déjà un estimateur non biaisé de la statistique. Par exemple, si mon estimateur renvoie simplement une constante indépendante des observations, l'estimation du biais ci-dessus est clairement invalide.
Bien que cet exemple soit pathologique, je ne vois pas quelles sont les hypothèses raisonnables concernant l'estimateur et les distributions qui garantiront que l'estimation bootstrap est raisonnable.
J'ai essayé de lire les références formelles, mais je ne suis ni statisticien ni mathématicien, donc rien n'a été précisé.
Quelqu'un peut-il fournir un résumé de haut niveau de la date à laquelle l'estimation peut être valide? Si vous connaissez de bonnes références sur le sujet, ce serait bien aussi.
Modifier:
La régularité de l'estimateur est souvent citée comme une condition pour que le bootstrap fonctionne. Se pourrait-il que l'on exige également une sorte d'invertibilité locale de la transformation? La carte constante ne satisfait clairement pas à cela.
Réponses:
Le problème que vous décrivez est un problème d'interprétation, pas un problème de validité. L'estimation du biais de bootstrap pour votre estimateur constant n'est pas invalide, elle est en fait parfaite.
L'estimation de bootstrap de polarisation est comprise entre un estimateur de s = de ( la x ) et d' un paramètre θ = t ( F ) , où F est une distribution inconnue et x un échantillon de F . La fonction t ( F ) est quelque chose que vous pourriez en principe calculer si vous aviez la population à portée de main. Quelques fois , nous prenons s ( x ) = t ( F ) , le module d'estimation de t (θ^=s(x) θ=t(F), F x F t(F) s(x)=t(F^), en utilisant la distribution empirique F à la place de F . C'est probablement ce que vous décrivez ci-dessus. Dans touscasl'estimation de bootstrap de polarisation est
b i a s F = E F [ s ( x * ) ] - t ( F ) ,
où x * sontéchantillons de bootstrap x .t(F) F^ F
La constante est un plug-in parfait estimation pour cette même constante:c la population est et l'échantillon ~ F , la distribution empirique, qui se rapproche F . Si vous pouviez évaluer t ( F ) = c , vous obtiendriez c . Lorsque vous calculez le plug-in estimation t ( F ) = c vous obtenez également c . Pas de parti pris, comme vous vous en doutez.∼F ∼F^ F t(F)=c c t(F^)=c c
Un cas bien connu où il y a un biais dans l'estimation plug-in est la variance d' estimation, d' où la correction de Bessel. Ci-dessous, je le démontre. L'estimation du biais de bootstrap n'est pas trop mauvaise:t(F^)
On pourrait plutôt prendre pour être la moyenne de la population et s ( x ) = c , situation où dans la plupart des cas il devrait y avoir un biais clair:t(F) s(x)=c
Encore une fois, l'estimation du bootstrap n'est pas trop mauvaise.
la source
Vous faites une erreur et c'est peut-être la raison pour laquelle cela prête à confusion. Vous dites:
Le bootstrap ne consiste pas à déterminer dans quelle mesure votre méthode est biaisée, mais dans quelle mesure vos résultats sont obtenus par une fonction, étant donné que vos données sont biaisées.
Si vous choisissez une méthode statistique appropriée pour analyser vos données et que toutes les hypothèses de cette méthode sont remplies et que vous avez fait vos calculs correctement, votre méthode statistique devrait vous fournir la "meilleure" estimation possible qui peut être obtenue en utilisant vos données .
L'idée du bootstrap est d'échantillonner à partir de vos données de la même manière que vous avez échantillonné vos cas à partir de la population - c'est donc une sorte de réplication de votre échantillonnage. Cela vous permet d'obtenir une distribution approximative (en utilisant les mots Efrons) de votre valeur et donc d'évaluer le biais de votre estimation.
Cependant, ce que je soutiens, c'est que votre exemple est trompeur et qu'il n'est donc pas le meilleur exemple pour discuter du bootstrap. Puisqu'il y a eu des malentendus des deux côtés, permettez-moi de mettre à jour ma réponse et de l'écrire de manière plus formelle pour illustrer mon propos.
Bias pour θθ^ estimation étant de valeur réelle est défini par:θ
où:
où est l'estimateur.g(⋅)
Comme le note Larry Wasserman dans son livre "All the Statistics" :
L'estimateur constant, étant une fonction constante de : g ( X ) = λ ne satisfait pas à cette exigence car il est indépendant des données et un nombre croissant d'observations ne le ferait pas approcher de la vraie valeur θ (sauf par pure chance ou en ayant très solide a priori sur λ c'est que λ = θ ).x g(X)=λ θ λ λ=θ
Estimateur constant ne répond pas à l'exigence de base pour être un estimateur raisonnable et , par conséquent, il est impossible d'estimer de biais parce que θ n ne touche pas à θ même avec n → ∞ . Il est impossible de le faire avec le bootstrap et avec toute autre méthode, donc ce n'est pas un problème avec le bootstrap.θ^n θ n→∞
la source
Vous souhaitez utiliser le statistique réelle évaluée sur la distribution empirique (c'est souvent facile, car l'échantillon d'origine est un ensemble fini), plutôt que l'estimation. Dans certains cas, celles-ci peuvent être les mêmes (par exemple, la moyenne empirique est la même que la moyenne de l'échantillon), mais elles ne le seront pas en général. Vous avez donné un cas où ils sont différents, mais un exemple moins pathologique est l'estimateur non biaisé habituel de la variance, qui n'est pas le même que la variance de la population lorsqu'il est appliqué à une distribution finie.
TL / DR: La méthode bootstrap n'est pas magique. Pour obtenir une estimation non biaisée du biais, vous devez être capable de calculer le paramètre d'intérêt exactement sur une distribution finie.
la source
Je trouve utile de penser aux procédures de bootstrap en termes de fonctionnelles des distributions sur lesquelles elles opèrent - j'ai donné un exemple dans cette réponse à une autre question de bootstrap.
L'estimation que vous avez donnée est ce qu'elle est - une estimation. Personne ne dit qu'il ne souffre pas des problèmes que peuvent avoir les estimations statistiques. Il vous donnera une estimation non nulle du biais pour la moyenne de l'échantillon, par exemple, que nous savons tous non biaisé pour commencer. Un problème avec cet estimateur de biais est qu'il souffre de la variabilité d'échantillonnage lorsque le bootstrap est implémenté comme Monte Carlo plutôt que d'une énumération complète de tous les sous-échantillons possibles (et personne que ce bootstrap théorique dans la pratique, de toute façon).
la source