Existe-t-il un exemple où le MLE produit une estimation biaisée de la moyenne?

17

Pouvez-vous fournir un exemple d'estimateur MLE de la moyenne biaisée?

Je ne cherche pas d'exemple qui casse les estimateurs MLE en général en violant les conditions de régularité.

Tous les exemples que je peux voir sur Internet se réfèrent à la variance, et je n'arrive pas à trouver quoi que ce soit lié à la moyenne.

ÉDITER

@MichaelHardy a fourni un exemple où nous obtenons une estimation biaisée de la moyenne de distribution uniforme en utilisant MLE sous un certain modèle proposé.

pourtant

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

suggère que le MLE est un estimateur sans biais minimal uniforme de la moyenne, clairement sous un autre modèle proposé.

À ce stade, il n'est pas encore très clair pour moi ce que l'on entend par estimation MLE si elle est très dépendante du modèle, par opposition à un estimateur moyen de l'échantillon qui est neutre au modèle. À la fin, je suis intéressé à estimer quelque chose sur la population et je ne me soucie pas vraiment de l'estimation d'un paramètre d'un modèle hypothétique.

EDIT 2

Comme @ChristophHanck l'a montré, le modèle avec des informations supplémentaires a introduit un biais mais n'a pas réussi à réduire le MSE.

Nous avons également des résultats supplémentaires:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (diapositive 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (diapositive 5)

"S'il existe un estimateur sans biais le plus efficace ˆθ de θ (c.-à-d. ˆΘ est sans biais et sa variance est égale au CRLB), alors la méthode d'estimation du maximum de vraisemblance le produira."

"De plus, s'il existe un estimateur efficace, c'est l'estimateur ML."

Étant donné que le MLE avec les paramètres du modèle libre est non biaisé et efficace, est-ce par définition «l'estimateur du maximum de vraisemblance?

EDIT 3

@AlecosPapadopoulos a un exemple avec la distribution Half Normal sur le forum mathématique.

/math/799954/can-the-maximum-likelihood-estimator-be-unbias-and-fail-to-achieve-cramer-rao

Il n'ancre aucun de ses paramètres comme dans le cas uniforme. Je dirais que ça règle, même s'il n'a pas démontré le biais de l'estimateur moyen.

Cagdas Ozgenc
la source
10
La moyenne d'un uniforme sur zéro et thêta.
Christoph Hanck
1
Je ne peux pas suivre votre distinction entre «estimer quelque chose sur la population» et «un paramètre d'un modèle hypothétique». Dans toutes les statistiques paramétriques, nous paramétrons une population par certains paramètres. Bien sûr, nous pouvons donc rencontrer des problèmes de spécification erronée, mais cela ne semble pas être pertinent pour le problème en question.
Christoph Hanck
5
Par exemple, qu'une population peut être caractérisée par ses paramètres / moments, comme la moyenne et la variance (ce qui serait suffisant pour une population normale, par exemple). Et: je ne pense pas que les gens soient plus ou moins pédants avec vous qu'avec quiconque sur ce forum.
Christoph Hanck
2
Si vous vous sentez mécontent du tour de passe-passe apparent de la commutation entre "paramètre" et "moyenne", permettez-moi de définir une certaine distribution non négative en termes de sa moyenne μ , avec la densité 12μ sur son support de[0,2μ]...
Silverfish
1
En ce qui concerne votre édition 2, beaucoup de ces résultats sont dérivés dans des conditions de régularité qui ne sont pas satisfaites pour l'exemple uniforme discuté dans ce fil, pour lequel l'espace d'échantillon dépend du paramètre.
Christoph Hanck

Réponses:

32

Christoph Hanck n'a pas publié les détails de son exemple proposé. Je suppose qu'il signifie la distribution uniforme sur l'intervalle [0,θ], basée sur un échantillon iid X1,,Xn de taille supérieure à n=1.

La moyenne est θ/2 .

Le MLE de la moyenne est max{X1,,Xn}/2.

Cela est biaisé puisque donc E ( max / 2 ) < θPr(max<θ)=1,E(max/2)<θ/2.

PS: Nous devrions peut - être noter que le meilleur estimateur sans biais de la moyenne n'est pas la moyenne de l'échantillon, mais plutôt n +θ/2La moyenne de l'échantillon est un estimateur moche deθ/2parce que pour certains échantillons, la moyenne de l'échantillon est inférieure à

n+12nmax{X1,,Xn}.
θ/2et il est clairement impossible queθ/2soit inférieur àmax/2.12max{X1,,Xn},θ/2max/2.
fin de PS

Je soupçonne que la distribution de Pareto est un autre cas du genre. Voici la mesure de probabilité: La valeur attendue estα

α(κx)α dxx for x>κ.
Le MLE de la valeur attendue est αα1κ.min=min{X1,,Xn
nni=1n((logXi)log(min))min
min=min{X1,,Xn}.

Je n'ai pas calculé la valeur attendue du MLE pour la moyenne, donc je ne sais pas quel est son biais.

Michael Hardy
la source
12
Cagdas, il n'est pas légitime de demander un contre-exemple et de nier ensuite que vous proposeriez autre chose! C'est comme demander un exemple d'un fruit qui n'est pas rouge, se faire montrer une myrtille, puis dire que ça ne compte pas parce que vous n'aimez pas les myrtilles.
whuber
7
Cela ne correspond pas à la question que vous avez posée.
whuber
8
@CagdasOzgenc: Le fait que le MLE soit biaisé ou non dépend du modèle. Il n'y a pas de MLE sans modèle. Et si vous modifiez le modèle, vous modifiez le MLE.
Michael Hardy
8
@CagdasOzgenc Voici une question socratique: la moyenne de l'échantillon est un estimateur non biaisé de quoi? Vous avez besoin d'un modèle pour avoir un paramètre à estimer.
Matthew Drury
9
La moyenne d'un échantillon iid est un estimateur sans biais de la moyenne de la population, mais on ne peut pas parler d'un estimateur à maximum de vraisemblance de quoi que ce soit sans plus de structure que ce qui est nécessaire pour parler d'un estimateur sans biais de quelque chose.
Michael Hardy
18

Voici un exemple que je pense que certains peuvent trouver surprenant:

En régression logistique, pour toute taille d'échantillon fini avec des résultats non déterministes (c.-à-d. ), tout coefficient de régression estimé n'est pas seulement biaisé, la moyenne du coefficient de régression n'est en fait pas définie.0<pi<1

En effet, pour toute taille d'échantillon finie, il existe une probabilité positive (bien que très faible si le nombre d'échantillons est important par rapport au nombre de paramètres de régression) d'obtenir une séparation parfaite des résultats. Lorsque cela se produit, les coefficients de régression estimés seront soit soit . Avoir une probabilité positive d'être - ou implique la valeur attendue est indéfinie.

Pour en savoir plus sur cette question particulière, voir l'effet Hauck-Donner .

Cliff AB
la source
1
C'est assez intelligent. Je me demande si le MLE des coefficients de régression logistique n'est pas conditionnel à la non-occurrence de l'effet Hauck-Donner?
gung - Rétablir Monica
3
@gung: Réponse courte: en ignorant l'effet Hauck-Donner, il y a toujours un biais vers le haut dans les coefficients de régression absolue (c.-à-d. les coefficients négatifs ont un biais vers le bas, les positifs ont un biais vers le haut). Fait intéressant, il semble y avoir un biais vers 0,5 dans les probabilités estimées. J'ai commencé à écrire à ce sujet sur ce post , mais je n'ai pas mis mes résultats sur les biais des probabilités estimées.
Cliff AB
10

Bien que @MichaelHardy ait fait le point, voici un argument plus détaillé pour expliquer pourquoi le MLE du maximum (et donc, celui de la moyenne , par invariance) n'est pas sans biais, bien qu'il soit dans un modèle différent (voir la modification ci-dessous).θ/2

Nous estimons la borne supérieure de la distribution uniforme . Ici, y ( n ) est le MLE, pour un échantillon aléatoire y . Nous montrons que y ( n ) n'est pas sans biais. Son cdf est F y ( n ) (U[0,θ]y(n)yy(n) Ainsi, sa densité est fy(n)(x)={n

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
Par conséquent, E [ Y ( n ) ]
fy(n)(x)={nθ(xθ)n1for0xθ0else
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

EDIT: Il est en effet vrai que (voir la discussion dans les commentaires) le MLE est sans biais pour la moyenne dans le cas où la borne inférieure et la borne supérieure b sont inconnues. Ensuite, le minimum Y ( 1 ) est le MLE pour a , avec (détails omis) la valeur attendue E ( Y ( 1 ) ) = n a + babY(1)a tandis que E(Y(n))=nb+a

E(Y(1))=na+bn+1
E(Y(n))=nb+an+1
(a+b)/2
Y(1)+Y(n)2
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

EDIT 2: To elaborate on Henry's point, here is a little simulation for the MSE of the estimators of the mean, showing that while the MLE if we do not know the lower bound is zero is unbiased, the MSEs for the two variants are identical, suggesting that the estimator which incorporates knowledge of the lower bound reduces variability.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968
Christoph Hanck
la source
Because Wikipedia is proposing a different model to begin with. That's where my confusion lies.
Cagdas Ozgenc
Yes, but once we adjust to the special case discussed here, namely a=0, we are back at square 1. In that case, we do not need the sample minimum for estimation anymore, as we know that the lower bound is zero, so that the MLE of the midpoint (=median=mean) simply becomes (max+0)/2 again.
Christoph Hanck
2
I have not worked out the details, but the MLE in that model could be unbiased if the minimum overestimates the lower bound by the same amount as the maximum underestimates the maximum, so that the midpoint is being estimated without bias.
Christoph Hanck
4
@CagdasOzgenc: unbiasedness is not the only or even the most important measure of better. By knowing one end of the support precisely, you may lose the balance between errors in estimating the mean, but you end up with (for example) a better estimate of the range
Henry
6
Maximum likelihood estimators are not always "best" across all criteria for small sample sizes. So what? They don't pretend to be, either. If you want to use a different estimator for your problem that has better properties according to some criterion for sample sizes that are in the neighborhood of your actual sample size, you're free to do so. I do so, and so do other people. No one is claiming that using MLE is justified in all situations just because it's MLE.
jbowman
5

Completing here the omission in my answer over at math.se referenced by the OP,

assume that we have an i.i.d. sample of size n of random variables following the Half Normal distribution. The density and moments of this distribution are

fH(x)=2/π1v1/2exp{x22v}E(X)=2/πv1/2μ,Var(X)=(12π)v

The log-likelihood of the sample is

L(vx)=nln2/πn2lnv12vi=1nxi2

The first derivative with respect to v is

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

so it is a method of moments estimator. It is unbiased since,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ
Alecos Papadopoulos
la source
4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take (Xi,Yi)N(μi,σ2). The MLE of μi is (Xi+Yi)/2 and of σ2 is σ^2=i=1n1nsi2 with si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4 which has expected value σ2/4 and so biased by a factor of 2.

AdamO
la source
2
While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that k/n0, where k is the number of parameters estimated and n is the sample size.
Cliff AB
1
@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of Θ goes to as n. I think that's what you're saying, but don't know what k means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate σ in this case.
AdamO
3

There is an infinite range of examples for this phenomenon since

  1. the maximum likelihood estimator of a bijective transform Ψ(θ) of a parameter θ is the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE);
  2. the expectation of the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE), E[Ψ(θ^MLE)] is not the bijective transform of the expectation of the maximum likelihood estimator, Ψ(E[θ^MLE]);
  3. most transforms Ψ(θ) are expectations of some transform of the data, h(X), at least for exponential families, provided an inverse Laplace transform can be applied to them.
Xi'an
la source