Une estimation non biaisée de la médiane

16

Supposons que nous ayons une variable aléatoireX prise en charge sur[0,1] partir de laquelle nous pouvons tirer des échantillons. Comment arriver à une estimation non biaisée de la médiane deX ?

Nous pouvons, bien sûr, générer des échantillons et prendre la médiane de l'échantillon, mais je comprends que cela ne sera généralement pas impartial.

Remarque: cette question est liée, mais pas identique, à ma dernière question , auquel cas X n'a pu être échantillonné qu'environ.

robinson
la source

Réponses:

13

Un tel estimateur n'existe pas.

L'intuition est que la médiane peut rester fixe pendant que nous déplaçons librement la densité de probabilité des deux côtés, de sorte que tout estimateur dont la valeur moyenne est la médiane d'une distribution aura une moyenne différente pour la distribution modifiée, ce qui la rend biaisée. L'exposé suivant donne un peu plus de rigueur à cette intuition.


Nous souhaitons distributions F ayant les médianes uniques m , de sorte que , par définition , F(m)1/2 et F(x)<1/2 pour tout x<m . Fixer une taille d'échantillon n1 et supposer que t:[0,1]n[0,1] estime m . (Il suffira que tseulement être borné, mais généralement on ne considère pas sérieusement les estimateurs qui produisent des valeurs manifestement impossibles.) Nous ne faisons aucune hypothèse sur ; il n'a même pas besoin d'être continu partout.t

La signification de étant sans biais (pour cette taille d'échantillon fixe) est quet

EF[t(X1,,Xn)]=m

pour tout échantillon iid avec . Un « estimateur sans biais » t est un avec cette propriété pour tout ce F .XiFtF

Supposons qu'il existe un estimateur sans biais. Nous dériverons une contradiction en l'appliquant à un ensemble de distributions particulièrement simple. Considérons les distributions ayant ces propriétés:F=Fx,y,m,ε

  1. ;0x<y1

  2. ;0<ε<(yx)/4

  3. ;x+ε<m<yε

  4. ;Pr(X=x)=Pr(X=y)=(1ε)/2

  5. ; etPr(mεXm+ε)=ε

  6. est uniforme sur [ m - ε , m + ε ] .F[mε,m+ε]

Ces distributions placent la probabilité à chacun de x et y et une toute petite quantité de probabilité placée symétriquement autour de m entre x et y . Cela rend m la médiane unique de F . (Si vous craignez que ce ne soit pas une distribution continue, alors convoluez-la avec une gaussienne très étroite et tronquez le résultat à [ 0 , 1 ] : l'argument ne changera pas.)(1ε)/2xymxymF[0,1]

Maintenant, pour tout estimateur médian putatif , une estimation facile montre que E [ t ( X 1 , X 2 , , X n ) ] est strictement à l'intérieur de ε de la moyenne des 2 n valeurs t ( x 1 , x 2 , , X n ) où les x i varient sur toutes les combinaisons possibles de x et y . Cependant, nous pouvons varier mtE[t(X1,X2,,Xn)]ε2nt(x1,x2,,xn)xixymentre et y - ε , un changement d'au moins ε (grâce aux conditions 2 et 3). Il existe donc un m , et d'où une distribution correspondante F x , y , m , ε , pour laquelle cette attente n'est pas égale à la médiane, QED.x+εyεεmFx,y,m,ε

whuber
la source
(+1) Belle preuve. L'avez-vous inventé, ou est-ce quelque chose dont vous vous souvenez de l'école doctorale?
StasK
4
Voici une autre preuve: la plupart des variables aléatoires de Bernoulli ont une médiane ou 1 . L'estimation à partir de n essais ne dépend que des valeurs moyennes de l'estimateur sur les sommets de [ 0 , 1 ] n avec k , et le poids de ces valeurs moyennes est un polynôme en p de degré n . Si ceci est un estimateur non biaisé, il doit avoir une valeur moyenne de 1 pour tout p > 1 / 2 , et il y a plus de n + 1 de ces valeurs de p01n[0,1]nkpn1p>1/2n+1p, donc ce polynôme doit être constant ... mais il doit être à 0 sur des valeurs inférieures de p , il ne peut donc pas être non biaisé là aussi. 0p
Douglas Zare
1
@Douglas C'est une excellente preuve. Je soupçonne que certaines personnes pourraient se sentir un peu mal à l' aise quant à la portée de son application, cependant, parce que la médiane d'une variable Bernoulli est un peu particulier, coïncidant avec l' un de ses deux points d'appui (sauf lorsque ). Les lecteurs pourraient être tentés de déclarer cela comme «pathologique» et d'essayer de bloquer de tels monstres en ne regardant que les distributions continues avec partout des densités positives sur leurs domaines. C'est pourquoi j'ai pris soin de montrer que de tels efforts échoueront. p=1/2
whuber
3

Trouver un estimateur non biaisé sans modèle paramétrique serait difficile! Mais vous pouvez utiliser le bootstrap et l'utiliser pour corriger la médiane empirique afin d'obtenir un estimateur approximativement sans biais.

kjetil b halvorsen
la source
Si cela est impossible, est-il possible de le prouver? Par exemple, si sont des échantillons indépendants de X, alors peut-on prouver que f ( X 1 , , X n ) ne peut pas être sans biais pour tout choix de f ? X1,X2,,XnXf(X1,,Xn)f
robinson
2
Je pense que kjetil dit que dans un cadre non paramétrique, il n'y a pas de méthode qui donnera une estimation impartiale pour chaque distribution possible. Mais dans le cadre paramétrique, vous pourriez probablement. Le bootstrap d'une estimation d'échantillon biaisée peut vous permettre d'estimer le biais et de l'ajuster pour obtenir une estimation bootstrap presque impartiale. C'était sa suggestion pour traiter le problème dans le cadre non paramétrique. Il serait également difficile de prouver qu'une estimation non biaisée n'est pas possible.
Michael R. Chernick
2
Si vous voulez vraiment essayer de prouver qu'il n'existe pas d'estimateur non biaisé, il y a un livre, Ferguson: "Statistiques mathématiques - Une approche théorique de décision" qui a quelques exemples de ce genre de chose!
kjetil b halvorsen
J'imagine que les conditions de régularité du bootstrap seront violées avec les fonctions de distribution que whuber considère dans sa réponse. Michael, pouvez-vous commenter?
StasK
2
@Stas As I pointed out, my functions can be made to look very "nice" by mollifying them. They can also be generalized to mollifications of large finite mixtures of atoms. The class of such distributions is dense in all distributions on the unit interval, so I don't think bootstrap regularity would be involved here.
whuber
0

I believe quantile regression will give you a consistent estimator of the median. Given the model Y=α+u. And you want to estimate med(y)=med(α+u)=α+med(u) since α is a constant. All you need is the med(u)=0 which should be true so long as you have independent draws. However, as far as unbiasedness, I don't know. Medians are difficult.

Francis
la source
See @whuber 's answer
Peter Flom - Reinstate Monica