Quand un estimateur biaisé est-il préférable à un estimateur non biaisé?

38

Il est évident que, souvent, on préfère un estimateur non biaisé. Mais existe-t-il des circonstances dans lesquelles nous pourrions préférer un estimateur biaisé à un estimateur non biaisé?

Stan Shunpike
la source
3
Connexes: Pourquoi le retrait est-il efficace?
S. Kolassa - Réintégrer Monica le
12
En fait, la raison pour laquelle on préfère un estimateur non biaisé n’est pas évidente. Le parti pris est comme le boogeyman dans les livres de statistiques, créant une peur inutile chez les étudiants en statistiques. En réalité, l’approche théorique de l’information par apprentissage conduit toujours à une estimation biaisée dans de petits échantillons et reste cohérente dans la limite.
Cagdas Ozgenc
4
J'ai eu des clients (surtout dans les affaires judiciaires) qui préféreraient fortement les estimateurs biaisés, à condition que le biais leur soit systématiquement accordé!
whuber
2
La section 17.2 ("Estimateurs non biaisés") de la théorie des probabilités de Jaynes : La logique de la science est une discussion très perspicace, avec des exemples, permettant de déterminer si le biais d'un estimateur est réellement important ou non, et pourquoi un biais est peut-être préférable C’est la bonne réponse de Chaconne ci-dessous).
pglpm
1
Si je peux résumer la réponse de Chaconne-Jaynes: un estimateur "non biaisé" peut se tromper à parts égales à droite ou à gauche de la valeur réelle; un "biaisé" on peut errer plus à droite qu'à gauche ou vice versa. Mais l'erreur de l'impartial, bien que symétrique, peut être beaucoup plus grande que celle du biais. Voir la première figure de Chaconne. Dans de nombreuses situations, il est beaucoup plus important qu'un estimateur ait une petite erreur plutôt que que cette erreur soit symétrique.
pglpm

Réponses:

51

Oui. Souvent, nous souhaitons minimiser l’erreur quadratique moyenne, qui peut être décomposée en variance + biais carré . C'est une idée extrêmement fondamentale en apprentissage automatique et en statistiques en général. Nous constatons fréquemment qu’une faible augmentation du biais peut entraîner une réduction de la variance suffisamment importante pour que la MSE globale diminue.

Un exemple standard est la régression de crête. Nous avons β R = ( X T X + λ I ) - 1 X T Y qui est sollicité; mais si X est mal conditionnée puis V un r ( β ) α ( X T X ) - 1 peut être énorme que V a r ( β R ) peut être beaucoup plus modeste.β^R=(XTX+λI)1XTYXVar(β^)(XTX)1Var(β^R)

Un autre exemple est le classifieur kNN . Pensez à : on attribue un nouveau point à son plus proche voisin. Si nous avons une tonne de données et seulement quelques variables, nous pouvons probablement récupérer la véritable limite de décision et notre classificateur est non biaisé; mais dans tous les cas réalistes, il est probable que k = 1 sera beaucoup trop souple (c'est-à-dire qu'il aura trop de variance) et que le faible biais n'en vaut pas la peine (c'est-à-dire que la MSE est plus grande que les classificateurs plus biaisés mais moins variables).k=1k=1

Enfin, voici une photo. Supposons que ce soient les distributions d'échantillonnage de deux estimateurs et que nous essayons d'estimer 0. Le plus plat est non biaisé, mais aussi beaucoup plus variable. Globalement, je pense que je préférerais utiliser le biais, parce que même si en moyenne nous ne serons pas corrects, pour chaque instance de cet estimateur, nous serons plus proches.

bias-variance

 
Mise à jour

Je mentionne les problèmes numériques qui se produisent lorsque est mal conditionné et comment la régression de crête aide. Voici un exemple.X

Je fais une matrice qui est 4 × 3 et la troisième colonne est presque tout à 0, ce qui signifie que ce n'est presque pas le rang complet, ce qui signifie que X T X est vraiment proche d'être singulier.X4×3XTX

x <- cbind(0:3, 2:5, runif(4, -.001, .001)) ## almost reduced rank

> x
     [,1] [,2]        [,3]
[1,]    0    2 0.000624715
[2,]    1    3 0.000248889
[3,]    2    4 0.000226021
[4,]    3    5 0.000795289

(xtx <- t(x) %*% x) ## the inverse of this is proportional to Var(beta.hat)

           [,1]        [,2]        [,3]
[1,] 14.0000000 26.00000000 3.08680e-03
[2,] 26.0000000 54.00000000 6.87663e-03
[3,]  0.0030868  0.00687663 1.13579e-06

eigen(xtx)$values ## all eigenvalues > 0 so it is PD, but not by much

[1] 6.68024e+01 1.19756e+00 2.26161e-07


solve(xtx) ## huge values

           [,1]        [,2]        [,3]
[1,]   0.776238   -0.458945     669.057
[2,]  -0.458945    0.352219    -885.211
[3,] 669.057303 -885.210847 4421628.936

solve(xtx + .5 * diag(3)) ## very reasonable values

             [,1]         [,2]         [,3]
[1,]  0.477024087 -0.227571147  0.000184889
[2,] -0.227571147  0.126914719 -0.000340557
[3,]  0.000184889 -0.000340557  1.999998999

Mise à jour 2

Comme promis, voici un exemple plus complet.

Tout d’abord, rappelez-vous le but de tout ceci: nous voulons un bon estimateur. Il y a plusieurs façons de définir le terme «bien». Supposons que nous avons et nous voulons estimer μ .X1,...,Xn iid N(μ,σ2)μ

Disons que nous décidons qu'un "bon" estimateur est un estimateur non biaisé. Ce n'est pas optimale car, alors il est vrai que l'estimateur est sans biais pour μ , nous avons n points de données il semble stupide d'ignorer presque tous . Pour rendre cette idée plus formelle, nous pensons que nous devrions pouvoir obtenir un estimateur qui varie moins de μ pour un échantillon donné que T 1 . Cela signifie que nous voulons un estimateur avec une variance plus petite.T1(X1,...,Xn)=X1μnμT1

Alors peut-être que maintenant nous disons que nous ne voulons toujours que des estimateurs non biaisés, mais parmi tous les estimateurs non biaisés, nous choisirons celui qui présente la plus petite variance. Cela nous conduit au concept de l’ estimateur non biaisé de variance uniformément minimum (UMVUE), objet de nombreuses études en statistique classique. SI nous ne voulons que des estimateurs non biaisés, choisir celui qui présente la plus petite variance est une bonne idée. Dans notre exemple, considérons par rapport à T 2 ( X 1 , . . . , X n ) = X 1 + X 2T1 etTn(X1,...,Xn)=X1+. . . +XnT2(X1,...,Xn)=X1+X22 . Encore une fois, tous les trois sont non biaisés mais ils ont des variances différentes:Var(T1)=σ2,Var(T2)=σ2Tn(X1,...,Xn)=X1+...+XnnVar(T1)=σ2 , etVar(Tn)=σ2Var(T2)=σ22 . Pourn>2Tna la plus petite variance de ceuxci, et il est impartial, c'est donc notre estimateur choisi.Var(Tn)=σ2nn>2 Tn

TθMSE(T)=E((Tθ)2)MSE(T)=Var(T)+Bias(T)2Bias(T)=E(T)θ. Thus we may decide that rather than UMVUEs we want an estimator that minimizes MSE.

Suppose that T is unbiased. Then MSE(T)=Var(T)=Bias(T)2=Var(T), so if we are only considering unbiased estimators then minimizing MSE is the same as choosing the UMVUE. But, as I showed above, there are cases where we can get an even smaller MSE by considering non-zero biases.

In summary, we want to minimize Var(T)+Bias(T)2. We could require Bias(T)=0 and then pick the best T among those that do that, or we could allow both to vary. Allowing both to vary will likely give us a better MSE, since it includes the unbiased cases. This idea is the variance-bias trade-off that I mentioned earlier in the answer.

Now here are some pictures of this trade-off. We're trying to estimate θ and we've got five models, T1 through T5. T1 is unbiased and the bias gets more and more severe until T5. T1 has the largest variance and the variance gets smaller and smaller until T5. We can visualize the MSE as the square of the distance of the distribution's center from θ plus the square of the distance to the first inflection point (that's a way to see the SD for normal densities, which these are). We can see that for T1 (the black curve) the variance is so large that being unbiased doesn't help: there's still a massive MSE. Conversely, for T5 the variance is way smaller but now the bias is big enough that the estimator is suffering. But somewhere in the middle there is a happy medium, and that's T3. It has reduced the variability by a lot (compared with T1) but has only incurred a small amount of bias, and thus it has the smallest MSE.

VBtradeoff

You asked for examples of estimators that have this shape: one example is ridge regression, where you can think of each estimator as Tλ(X,Y)=(XTX+λI)1XTY. You could (perhaps using cross-validation) make a plot of MSE as a function of λ and then choose the best Tλ.

jld
la source
The picture is the only one I understood. Do u have any easier examples that correspond to the picture? What estimators would have those shapes?
Stan Shunpike
I'll post a more detailed example tomorrow.
jld
@StanShunpike I've added a lengthy update. Please let me know if that helps clear things up.
jld
Probably the most effort anyone ever put into answering one of my questions. Thanks a lot.
Stan Shunpike
1
@olivia i can't think of a single non-trivial case where bias is the only criterion i care about (although there may be such cases that I just don't know about!), although there are times when bias is known to be a dominating factor (consider REML, for instance, where the bias is severe enough that it's worth doing something about). I think no matter what you're doing you just want your one particular estimator to be close to the truth, and that's what MSE does.
jld
2

Two reasons come to mind, aside from the MSE explanation above (the commonly accepted answer to the question):

  • Managing risk
  • Efficient testing

Risk, roughly, is the sense of how much something can explode when certain conditions aren't met. Take superefficient estimators: T(X)=X¯n if X¯n lies beyond an ϵ-ball of 0, 0 otherwise. You can show that this statistic is more efficient than the UMVUE, since it has the same asymptotic variance as the UMVUE with θ0 and infinite efficiency otherwise. This is a stupid statistic, and Hodges threw it out there as a strawman. Turns out that if you take θn on the boundary of the ball, it becomes an inconsistent test, it never knows what's going on and the risk explodes.

In the minimax world, we try to minimize risk. It can give us biased estimators, but we don't care, they still work because there are fewer ways to break the system. Suppose, for instance, I were interested in inference on a Γ(α,βn) distribution, and once in a while the distribution threw curve balls. A trimmed mean estimate

Tθ(X)=XiI(Xi<θ)/I(Xi<θ)
systematically throws out the high leverage points.

Efficient testing means you don't estimate the thing you're interested in, but an approximation thereof, because this provides a more powerful test. The best example I can think of here is logistic regression. People always confuse logistic regression with relative risk regression. For instance an odds ratio of 1.6 for cancer comparing smokers to non-smokers does NOT mean that "smokers had a 1.6 greater risk of cancer". BZZT wrong. That's a risk ratio. They technically had a 1.6 fold odds of the outcome (reminder: odds = probability / (1-probability)). However, for rare events, the odds ratio approximates the risk ratio. There is relative risk regression, but it has a lot of issues with converging and is not as powerful as logistic regression. So we report the OR as a biased estimate of the RR (for rare events), and calculate more efficient CIs and p-values.

AdamO
la source