Raisonnement intuitif derrière les estimateurs biaisés du maximum de vraisemblance

25

J'ai une confusion sur les estimateurs biaisés du maximum de vraisemblance (ML). Les mathématiques de l'ensemble du concept sont assez claires pour moi, mais je ne peux pas comprendre le raisonnement intuitif derrière.

Étant donné un certain ensemble de données qui contient des échantillons d'une distribution, qui est elle-même fonction d'un paramètre que nous voulons estimer, l'estimateur ML donne la valeur du paramètre qui est le plus susceptible de produire l'ensemble de données.

Je ne peux pas comprendre intuitivement un estimateur ML biaisé en ce sens que: comment la valeur la plus probable pour le paramètre peut-elle prédire la valeur réelle du paramètre avec un biais vers une mauvaise valeur?

ssah
la source
Duplication possible de l' estimation
kjetil b halvorsen
Je pense que l'accent mis ici sur les biais peut distinguer cette question du double proposé, bien qu'ils soient certainement très étroitement liés.
Silverfish

Réponses:

14

l'estimateur ML donne la valeur du paramètre la plus susceptible de se produire dans l'ensemble de données.

Compte tenu des hypothèses, l'estimateur ML est la valeur du paramètre qui a les meilleures chances de produire l'ensemble de données.

Je ne peux pas comprendre intuitivement un estimateur ML biaisé en ce sens que "Comment la valeur la plus probable pour le paramètre peut-elle prédire la valeur réelle du paramètre avec un biais vers une mauvaise valeur?"

Le biais concerne les attentes des distributions d'échantillonnage. «Le plus susceptible de produire les données» ne concerne pas les attentes des distributions d'échantillonnage. Pourquoi devraient-ils aller ensemble?

Sur quelle base est-il surprenant qu'ils ne correspondent pas nécessairement?

Je vous suggère de considérer quelques cas simples de MLE et de réfléchir à la façon dont la différence survient dans ces cas particuliers.

Par exemple, considérons les observations sur l'uniforme sur . La plus grande observation n'est (nécessairement) pas plus grande que le paramètre, donc le paramètre ne peut prendre que des valeurs au moins aussi grandes que la plus grande observation.(0,θ)

Lorsque vous considérez la probabilité de , elle est (évidemment) plus grande lorsque θ est proche de la plus grande observation. Il est donc maximisé à la plus grande observation; c'est clairement l'estimation de θ qui maximise les chances d'obtenir l'échantillon que vous avez obtenu:θθθ

entrez la description de l'image ici

Mais d'un autre côté, elle doit être biaisée, car la plus grande observation est évidemment (avec probabilité 1) inférieure à la vraie valeur de ; toute autre estimation de θ non encore exclue par l'échantillon lui-même doit être plus grande que celle-ci et doit (tout simplement dans ce cas) être moins susceptible de produire l'échantillon.θθ

L'espérance de la plus grande observation d'un est nU(0,θ) ,sortela manière habituelle pour unbias il est à prendre comme l'estimateur deθ: θ =n+1nn+1θ, oùX(n)est la plus grande observation.θ^=n+1nX(n)X(n)

Cela se trouve à la droite du MLE et a donc une probabilité plus faible.

Glen_b -Reinstate Monica
la source
Merci pour votre réponse. Concernant la première partie, je me suis mal exprimé. Je voulais essentiellement ce que vous avez dit. Sur la base de votre réponse à la deuxième partie, puis-je conclure que, étant donné un autre ensemble de données tirées de la même distribution, l'estimateur ML entraînera-t-il un biais différent? Puisque vous dites que l'estimateur ML est celui qui produit «le plus probablement» les données. Si nous modifions les données, un autre estimateur pourrait très probablement les produire. Est-ce exact?
ssah
L'estimateur ne changera pas si la forme de la distribution de la population ne change pas. Une autre estimation sera produite avec un échantillon différent et l'ampleur de son biais sera généralement différente - le biais est généralement lié à la taille de l'échantillon, même si la population est la même. ... (ctd)
Glen_b -Reinstate Monica
(ctd) ... mnθ
Bonne utilisation de l'exemple canonique pour voir la différence entre les estimateurs sans biais et ML.
jwg
6

βMLEβββMLE

NN-1

Dimitriy V. Masterov
la source
Désolé pour l'erreur dans la première partie. Je l'ai édité et corrigé. Mais à propos de ce que vous avez dit sur le MLE, pourquoi serait-il biaisé en premier lieu dans le cas non asymptotique?
ssah
2
"Mieux" dépend de ce que vous regardez; La correction de Bessel le rend non biaisé, mais le caractère non biaisé n'est pas automatiquement «meilleur» (le MSE est pire, par exemple; pourquoi devrais-je préférer le caractère non biaisé à un MSE plus petit?). L'impartialité pourrait être considérée comme meilleure, ceteris paribus , mais malheureusement, la ceteris ne sera pas paribus .
Glen_b -Reinstate Monica
D'après ce que j'ai compris, l'estimateur sans biais peut être démontré comme étant le mieux sans biais grâce à la relation entre le MLE et la borne inférieure de Cramer-Rao.
Dimitriy V. Masterov
@ssah On m'a dit que c'est parce que nous utilisons la moyenne de l'échantillon au lieu de la vraie moyenne dans la formule. Pour être honnête, je n'ai jamais vraiment trouvé cette explication particulièrement intuitive, car si l'estimateur MLE de la moyenne est non biaisé, pourquoi cela devrait-il mal tourner? Je mets généralement mes doutes au repos avec une simulation.
Dimitriy V. Masterov
5

Voici mon intuition.

Le biais est une mesure de précision , mais il y a aussi une notion de précision .

entrez la description de l'image ici

Dans un monde idéal, nous obtiendrions l'estimation, qui est à la fois précise et exacte, c'est-à-dire qui frappe toujours dans le mille. Malheureusement, dans notre monde imparfait, nous devons équilibrer l'exactitude et la précision. Parfois, nous pouvons penser que nous pourrions donner un peu de précision pour gagner en précision: nous échangeons tout le temps. Par conséquent, le fait qu'un estimateur soit biaisé ne signifie pas qu'il est mauvais: il se pourrait qu'il soit plus précis.

Aksakal
la source