Comment comprendre que le MLE de la variance est biaisé dans une distribution gaussienne?

12

Illustration PRML de la façon dont le biais se produit en utilisant le maximum de vraisemblance pour déterminer la variance d'un gaussien

Je lis PRML et je ne comprends pas l'image. Pourriez-vous s'il vous plaît donner quelques conseils pour comprendre l'image et pourquoi le MLE de la variance dans une distribution gaussienne est biaisé?

formule 1.55: formule 1.56 σ 2 M L E =1

μMLE=1Nn=1Nxn
σMLE2=1Nn=1N(xnμMLE)2
ningyuwhut
la source
Veuillez ajouter la balise d'auto-apprentissage.
StatsStudent
2
pourquoi pour chaque graphique, un seul point de données bleu est visible pour moi? btw, alors que j'essayais d'éditer le débordement de deux indices dans ce post, le système nécessite "au moins 6 caractères" ... embarrassant.
Zhanxiong
Que voulez-vous vraiment comprendre, l'image ou pourquoi l'estimation de la variance MLE est biaisée? Le premier est très déroutant mais je peux expliquer le second.
TrynnaDoStat
ouais, j'ai trouvé dans la nouvelle version chaque graphique a deux données bleues, mon pdf est vieux
ningyuwhut
@TrynnaDoStat désolé pour ma question n'est pas clair. ce que je veux savoir, c'est pourquoi l'estimation de la variance MLE est biaisée. et comment cela est exprimé dans ce graphique
ningyuwhut

Réponses:

25

Intuition

Le biais vient "(pas du tout d'un terme technique) du fait que est biaisé pour . La question naturelle est, "eh bien, quelle est l'intuition pour laquelle est biaisé pour "? L'intuition est que dans une moyenne d'échantillon non quadratique, nous manquons parfois la vraie valeur en surestimant et parfois en sous-estimant. Mais, sans quadrature, la tendance à surestimer et à sous-estimer s'annule mutuellement. Cependant, lorsque nous quadrillons la tendance à sous-estimer (manquer la vraie valeur deμ 2 E [ ˉ x 2 ] μ 2 μ ˉ x μE[x¯2]μ2E[x¯2]μ2μx¯μpar un nombre négatif) devient également carré et devient ainsi positif. Ainsi, il n'annule plus et il y a une légère tendance à surestimer.

Si l'intuition derrière pourquoi est biaisé pour n'est toujours pas claire, essayez de comprendre l'intuition derrière l'inégalité de Jensen (bonne explication intuitive ici ) et appliquez-la à .μ 2 E [ x 2 ]x2μ2E[x2]

Prouvons que le MLE de variance pour un échantillon iid est biaisé. Ensuite, nous vérifierons analytiquement notre intuition.

Preuve

Soit .σ^2=1Nn=1N(xnx¯)2

Nous voulons montrer .E[σ^2]σ2

E[σ^2]=E[1Nn=1N(xnx¯)2]=1NE[n=1N(xn22xnx¯+x¯2)]=1NE[n=1Nxn2n=1N2xnx¯+n=1Nx¯2]

En utilisant le fait que et ,n=1Nxn=Nx¯n=1Nx¯2=Nx¯2

1NE[n=1Nxn2n=1N2xnx¯+n=1Nx¯2]=1NE[n=1Nxn22Nx¯2+Nx¯2]=1NE[n=1Nxn2Nx¯2]=1NE[n=1Nxn2]E[x¯2]=1Nn=1NE[xn2]E[x¯2]=E[xn2]E[x¯2]

Avec la dernière étape qui suit car est égal sur raison de la même distribution.E[xn2]n

Maintenant, rappelez-vous la définition de la variance qui dit . De là, nous obtenons ce qui suitσx2=E[x2]E[x]2

E[xn2]E[x¯2]=σx2+E[xn]2σx¯2E[xn]2=σx2σx¯2=σx2Var(x¯)=σx2Var(1Nn=1Nxn)=σx2(1N)2Var(n=1Nxn)

Notez que nous avons correctement mis au carré la constante en la retirant de . Portez une attention particulière à cela!1NVar()

σx2(1N)2Var(n=1Nxn)=σx2(1N)2Nσx2=σx21Nσx2=N1Nσx2

ce qui n'est bien sûr pas égal à .σx2

Vérifier analytiquement notre intuition

Nous pouvons quelque peu vérifier l'intuition en supposant que nous connaissons la valeur de et en la connectant à la preuve ci-dessus. Puisque nous connaissons maintenant , nous n'avons plus besoin d'estimer et donc nous ne le surestimons jamais avec . Voyons que cela "supprime" le biais dans .μμμ2E[x¯2]σ^2

Soit .σ^μ2=1Nn=1N(xnμ)2

A partir de la preuve ci-dessus, reprenons remplaçant par la vraie valeur .ˉ x μE[xn2]E[x¯2]x¯μ

E[xn2]E[μ2]=E[xn2]μ2=σx2+E[xn]2μ2=σx2

ce qui est impartial!

TrynnaDoStat
la source
3
+1 Il convient de noter que votre démonstration ne nécessite pas que ait une distribution gaussienne. (Cependant, pour d'autres distributions, la variance de l'échantillon peut ne pas être le MLE pour le paramètre de variance.)X
whuber
1
Merci pour votre explication. J'ai besoin d'un peu de temps pour le comprendre. De plus, j'ai trouvé une erreur dans les équations. Pouvez-vous le vérifier? Merci!
ningyuwhut
@ whuber - Je ne sais pas pourquoi vous avez dit ".. la démonstration ne nécessite pas que ait une distribution gaussienne.". Nous ne parlerions pas de solution de variance ML pour chaque distribution, par exemple une distribution binomiale. Donc, implicitement, nous supposons que la distribution X a la variance comme l'un des paramètres. X
KGhatak