Quand l'estimation bootstrap du biais est-elle valide?

31

On prétend souvent que le bootstrap peut fournir une estimation du biais dans un estimateur.

Si t est l'estimation pour une statistique, et sont les répliques bootstrap (avec ), alors l'estimation bootstrap de biais est qui semble extrêmement simple et puissant, au point d'être troublant.t^t~ii{1,,N}

biast1Nit~it^

Je ne peux pas comprendre comment cela est possible sans avoir déjà un estimateur non biaisé de la statistique. Par exemple, si mon estimateur renvoie simplement une constante indépendante des observations, l'estimation du biais ci-dessus est clairement invalide.

Bien que cet exemple soit pathologique, je ne vois pas quelles sont les hypothèses raisonnables concernant l'estimateur et les distributions qui garantiront que l'estimation bootstrap est raisonnable.

J'ai essayé de lire les références formelles, mais je ne suis ni statisticien ni mathématicien, donc rien n'a été précisé.

Quelqu'un peut-il fournir un résumé de haut niveau de la date à laquelle l'estimation peut être valide? Si vous connaissez de bonnes références sur le sujet, ce serait bien aussi.


Modifier:

La régularité de l'estimateur est souvent citée comme une condition pour que le bootstrap fonctionne. Se pourrait-il que l'on exige également une sorte d'invertibilité locale de la transformation? La carte constante ne satisfait clairement pas à cela.

Bootstrapped
la source
2
Un estimateur constant est un estimateur non biaisé de cette constante, il est donc naturel que l'estimateur bootstrap du biais soit nul.
Xi'an

Réponses:

4

Le problème que vous décrivez est un problème d'interprétation, pas un problème de validité. L'estimation du biais de bootstrap pour votre estimateur constant n'est pas invalide, elle est en fait parfaite.

L'estimation de bootstrap de polarisation est comprise entre un estimateur de s = de ( la x ) et d' un paramètre θ = t ( F ) ,F est une distribution inconnue et x un échantillon de F . La fonction t ( F ) est quelque chose que vous pourriez en principe calculer si vous aviez la population à portée de main. Quelques fois , nous prenons s ( x ) = t ( F ) , le module d'estimation de t (θ^=s(x)θ=t(F),FxFt(F)s(x)=t(F^), en utilisant la distribution empirique F à la place de F . C'est probablement ce que vous décrivez ci-dessus. Dans touscasl'estimation de bootstrap de polarisation est b i a s F = E F [ s ( x * ) ] - t ( F ) , x * sontéchantillons de bootstrap x .t(F)F^F

biasF^=EF^[s(x)]t(F^),
xx

La constante est un plug-in parfait estimation pour cette même constante:c la population est et l'échantillon ~ F , la distribution empirique, qui se rapproche F . Si vous pouviez évaluer t ( F ) = c , vous obtiendriez c . Lorsque vous calculez le plug-in estimation t ( F ) = c vous obtenez également c . Pas de parti pris, comme vous vous en doutez.FF^Ft(F)=cct(F^)=cc

Un cas bien connu où il y a un biais dans l'estimation plug-in est la variance d' estimation, d' où la correction de Bessel. Ci-dessous, je le démontre. L'estimation du biais de bootstrap n'est pas trop mauvaise: t(F^)

library(plyr)

n <- 20
data <- rnorm(n, 0, 1)

variance <- sum((data - mean(data))^2)/n

boots <- raply(1000, {
  data_b <- sample(data, n, replace=T)
  sum((data_b - mean(data_b))^2)/n
})

# estimated bias
mean(boots) - variance 
#> [1] -0.06504726

# true bias:
((n-1)/n)*1 -1
#> [1] -0.05

On pourrait plutôt prendre pour être la moyenne de la population et s ( x ) = c , situation où dans la plupart des cas il devrait y avoir un biais clair: t(F)s(x)=c

library(plyr)

mu <- 3
a_constant <- 1

n <- 20
data <- rnorm(n, mu, 1)

boots <- raply(1000, {
  # not necessary as we will ignore the data, but let's do it on principle
  data_b <- sample(data, n, replace=T)

  a_constant
})

# estimated bias
mean(boots) - mean(data) 
#> [1] -1.964877

# true bias is clearly -2

Encore une fois, l'estimation du bootstrap n'est pas trop mauvaise.

einar
la source
J'ai ajouté cette réponse parce que les autres réponses semblent tenir pour acquis que c'est un problème que l'estimation bootstrap du biais est 0 lorsque est une constante. Je ne le crois pas. t
einar
J'aime votre réponse et votre démo, mais je ne pense pas que votre définition soit correcte "L'estimation bootstrap du biais est une estimation du biais entre une fonction de votre échantillon et la même fonction évaluée dans la population." Bien que ce que vous écrivez soit bien défini, s'il s'agissait de la définition, il n'y aurait aucun moyen d'utiliser le bootstrap pour estimer, par exemple, la variance de l'échantillon comme estimateur de la variance de la population.
DavidR
@DavidR Vous avez raison, merci pour vos commentaires. J'ai mis à jour la réponse.
einar
J'aime beaucoup ce résumé! Ma seule question concerne «l'estimation bootstrap du biais». Je pense que ce que vous avez écrit est le biais réel de l'estimateur (mais pour la distribution empirique plutôt que la vraie distribution), puisque vous prenez une attente sur des échantillons bootstrap. Je pense que l'estimateur bootstrap serait une somme finie sur des échantillons B bootstrap?
DavidR
1
@DavidR Je suis content que vous le fassiez! Ce que je signale est techniquement l'estimation bootstrap de biais (parce que vous utilisez à la place de θ et l'attente d'amorçage de s ( ) à la place de son espérance sur F ). Mais dans la plupart des applications pratiques E F [ s ( x *t(F^)θs()F est intraitable et nous rapproche par Monte Carlo comme vousdites. EF^[s(x)]
einar
3

Vous faites une erreur et c'est peut-être la raison pour laquelle cela prête à confusion. Vous dites:

si mon estimateur renvoie simplement une constante indépendante des observations, l'estimation du biais ci-dessus est clairement invalide

Le bootstrap ne consiste pas à déterminer dans quelle mesure votre méthode est biaisée, mais dans quelle mesure vos résultats sont obtenus par une fonction, étant donné que vos données sont biaisées.

Si vous choisissez une méthode statistique appropriée pour analyser vos données et que toutes les hypothèses de cette méthode sont remplies et que vous avez fait vos calculs correctement, votre méthode statistique devrait vous fournir la "meilleure" estimation possible qui peut être obtenue en utilisant vos données .

L'idée du bootstrap est d'échantillonner à partir de vos données de la même manière que vous avez échantillonné vos cas à partir de la population - c'est donc une sorte de réplication de votre échantillonnage. Cela vous permet d'obtenir une distribution approximative (en utilisant les mots Efrons) de votre valeur et donc d'évaluer le biais de votre estimation.

Cependant, ce que je soutiens, c'est que votre exemple est trompeur et qu'il n'est donc pas le meilleur exemple pour discuter du bootstrap. Puisqu'il y a eu des malentendus des deux côtés, permettez-moi de mettre à jour ma réponse et de l'écrire de manière plus formelle pour illustrer mon propos.

Bias pour θθ^ estimation étant de valeur réelle est défini par:θ

bias(θ^n)=Eθ(θ^n)θ

où:

θ^n=g(x1,x2,...,xn)

est l'estimateur.g()

Comme le note Larry Wasserman dans son livre "All the Statistics" :

Une exigence raisonnable pour un estimateur est qu'il doit converger vers la valeur réelle du paramètre à mesure que nous collectons de plus en plus de données. Cette exigence est quantifiée par la définition suivante:
6.7 Définition. Un estimateur ponctuel θ n d'un paramètre θ est cohérent si θ n P θ .θ^nθθ^nPθ

L'estimateur constant, étant une fonction constante de : g ( X ) = λ ne satisfait pas à cette exigence car il est indépendant des données et un nombre croissant d'observations ne le ferait pas approcher de la vraie valeur θ (sauf par pure chance ou en ayant très solide a priori sur λ c'est que λ = θ ).xg(X)=λθλλ=θ

Estimateur constant ne répond pas à l'exigence de base pour être un estimateur raisonnable et , par conséquent, il est impossible d'estimer de biais parce que θ n ne touche pas à θ même avec n . Il est impossible de le faire avec le bootstrap et avec toute autre méthode, donc ce n'est pas un problème avec le bootstrap.θ^nθn

Tim
la source
5
J'ai bien peur que cette réponse semble destinée à semer la confusion. Un estimateur constant est un estimateur selon la plupart des définitions - et dans certains cas, il est même admissible. Votre question confond le biais d'échantillonnage avec le biais d'estimation, ce qui ne peut que confondre presque tous les lecteurs. Votre paragraphe sur la "meilleure estimation possible" est agréable, mais il soulève la question essentielle de savoir comment mesurer le "meilleur". Le biais n'est qu'un élément de cela (le cas échéant).
whuber
Bien que je ne sois pas suffisamment qualifié pour répondre à OP, j'ai bien peur que Whuber ait raison. Est-il également valide d'appeler la population moyenne un estimateur? En ce qui concerne la dernière phrase, je pense que boostrap fournit une estimation du biais de l'estimateur analysé et non de la méthode d'échantillonnage.
mugen
Je comprends que le bootstrap ne peut pas détecter les erreurs systématiques, mais au moins dans une certaine limite, il est censé détecter un biais statistique. Je suppose que votre point concerne la subtilité de la distinction entre les deux, mais cela n'est toujours pas clair pour moi. Vous semblez parler d'une notion de biais dont je n'ai jamais entendu parler - pas de l'estimateur, mais des données. Quelle est la définition formelle de cette notion de parti pris?
Bootstrapped
3
λθ λθ
8
θ^0n<10100
3

t

biast1Nit~it

Vous souhaitez utiliser le statistique réelle évaluée sur la distribution empirique (c'est souvent facile, car l'échantillon d'origine est un ensemble fini), plutôt que l'estimation. Dans certains cas, celles-ci peuvent être les mêmes (par exemple, la moyenne empirique est la même que la moyenne de l'échantillon), mais elles ne le seront pas en général. Vous avez donné un cas où ils sont différents, mais un exemple moins pathologique est l'estimateur non biaisé habituel de la variance, qui n'est pas le même que la variance de la population lorsqu'il est appliqué à une distribution finie.

t n'a pas de sens sur la distribution empirique (par exemple, si elle suppose une distribution continue), alors vous ne devriez pas utiliser le bootstrapping vanilla. Vous pouvez remplacer la distribution empirique par une estimation de la densité du noyau (bootstrap lisse), ou si vous savez que la distribution d'origine appartient à une famille particulière, vous pouvez remplacer la distribution empirique par l'estimation probable maximale de cette famille (bootstrap paramétrique).

TL / DR: La méthode bootstrap n'est pas magique. Pour obtenir une estimation non biaisée du biais, vous devez être capable de calculer le paramètre d'intérêt exactement sur une distribution finie.

Evan Wright
la source
1
Je ne suis pas sûr de la signification de votre notation. Selon ces notes de cours de Pete Hall (UC Davis), ces notes de cours de Cosma Shalizi (CMU) et cette page du livre d'Efron et de Tibshirani semblent indiquer que ce que j'ai, ce n'est pas faux, tout simplement pas complètement général (c'est-à-dire, je j'utilise l'estimateur plug-in ici, mais ce n'est pas nécessaire).
Bootstrapped
t=t^θ(F1)tθ^t^tt
Evan Wright
t=t^
1
tN
ttt~it
0

Je trouve utile de penser aux procédures de bootstrap en termes de fonctionnelles des distributions sur lesquelles elles opèrent - j'ai donné un exemple dans cette réponse à une autre question de bootstrap.

L'estimation que vous avez donnée est ce qu'elle est - une estimation. Personne ne dit qu'il ne souffre pas des problèmes que peuvent avoir les estimations statistiques. Il vous donnera une estimation non nulle du biais pour la moyenne de l'échantillon, par exemple, que nous savons tous non biaisé pour commencer. Un problème avec cet estimateur de biais est qu'il souffre de la variabilité d'échantillonnage lorsque le bootstrap est implémenté comme Monte Carlo plutôt que d'une énumération complète de tous les sous-échantillons possibles (et personne que ce bootstrap théorique dans la pratique, de toute façon).

BB

StasK
la source
7
Je pense que la question initiale de Bootstrapped est orthogonale à la question de la variabilité de Monte Carlo. Même si nous prenons le nombre de réplications bootstrap à l'infini, la formule dans la question donnera une estimation nulle pour le biais d'un estimateur constant, et donnera une estimation non nulle pour le biais de l'estimation non biaisée habituelle de la variance.
Evan Wright