Estimation du maximum de vraisemblance - pourquoi elle est utilisée malgré son biais dans de nombreux cas

25

L'estimation du maximum de vraisemblance se traduit souvent par des estimateurs biaisés (par exemple, son estimation de la variance de l'échantillon est biaisée pour la distribution gaussienne).

Qu'est-ce qui le rend si populaire? Pourquoi est-il utilisé autant? De plus, qu'est-ce qui la rend meilleure que l'approche alternative - la méthode des moments?

De plus, j'ai remarqué que pour le gaussien, une simple mise à l'échelle de l'estimateur MLE le rend non biaisé. Pourquoi cette mise à l'échelle n'est-elle pas une procédure standard? Je veux dire - Pourquoi est-ce qu'après le calcul MLE, il n'est pas routinier de trouver la mise à l'échelle nécessaire pour rendre l'estimateur sans biais? La pratique standard semble être le simple calcul des estimations MLE, sauf bien sûr pour le cas gaussien bien connu où le facteur d'échelle est bien connu.

Minaj
la source
11
Il existe de nombreuses alternatives au ML, pas seulement la méthode des moments - qui a également tendance à produire des estimateurs biaisés, soit dit en passant. Ce que vous voudrez peut-être demander à la place, c'est "pourquoi quelqu'un voudrait-il utiliser un estimateur non biaisé?" Une bonne façon de commencer la recherche sur ce problème est une recherche sur le compromis biais-variance .
whuber
7
Comme l'a souligné Whuber, il n'y a pas de supériorité intrinsèque à être impartial.
Xi'an
4
Je pense que @whuber signifie "pourquoi quelqu'un voudrait-il utiliser un estimateur biaisé ?" Il ne faut pas beaucoup de travail pour convaincre quelqu'un qu'un estimateur non biaisé peut être raisonnable.
Cliff AB
5
Voir en.wikipedia.org/wiki/… pour un exemple où le seul estimateur non biaisé n'est certainement pas celui que vous voudriez utiliser.
Scortchi - Réintégrer Monica
4
@Cliff J'avais l'intention de poser la question sous sa forme plus provocante, potentiellement plus mystérieuse. Derrière cela se cache l'idée qu'il existe de nombreuses façons d'évaluer la qualité d'un estimateur et que beaucoup d'entre elles n'ont rien à voir avec le biais. De ce point de vue, il est tout naturel de se demander pourquoi quelqu'un proposerait un estimateur non biaisé. Voir la réponse de glen_b pour plus de ce point de vue.
whuber

Réponses:

18

L'impartialité n'est pas nécessairement particulièrement importante en soi.

Mis à part un ensemble très limité de circonstances, la plupart des estimateurs utiles sont biaisés, mais ils sont obtenus.

Si deux estimateurs ont la même variance, on peut facilement monter un argument pour préférer un biais à un biais, mais c'est une situation inhabituelle (c'est-à-dire que vous pouvez raisonnablement préférer le biais, ceteris paribus - mais ces embêtants ceteris ne sont presque jamais paribus ).

Plus généralement, si vous voulez une impartialité, vous ajouterez une certaine variance pour l'obtenir, et la question serait alors pourquoi feriez-vous cela ?

Le biais est la mesure dans laquelle la valeur attendue de mon estimateur sera trop élevée en moyenne (avec un biais négatif indiquant trop faible).

Lorsque je considère un petit estimateur d'échantillon, je m'en fiche vraiment. Je suis généralement plus intéressé à savoir dans quelle mesure mon estimateur aura tort dans ce cas - ma distance typique de la droite ... quelque chose comme une erreur quadratique moyenne ou une erreur absolue moyenne aurait plus de sens.

Donc, si vous aimez une faible variance et un faible biais, demander un estimateur d' erreur quadratique moyenne minimum aurait du sens; ce sont très rarement impartiaux.

Le biais et l'impartialité sont une notion utile à connaître, mais ce n'est pas une propriété particulièrement utile à rechercher, sauf si vous comparez uniquement des estimateurs avec la même variance.

Les estimateurs ML ont tendance à être peu variés; ils ne sont généralement pas un MSE minimum, mais ils ont souvent un MSE inférieur à ce que vous apporterait la modification pour qu'ils soient impartiaux (quand vous pouvez le faire).

A titre d'exemple, considérons l' estimation de la variance lors de l' échantillonnage d'une distribution normale σ 2 MMSE = S 2 (en effet, le MMSE pour la variance a toujours un dénominateur plus grand quen-1).σ^MMSE2=S2n+1,σ^MLE2=S2n,σ^Unb2=S2n-1n-1

Glen_b -Reinstate Monica
la source
1
+1. Y a-t-il une intuition (ou peut-être une théorie derrière) votre avant-dernier dernier paragraphe? Pourquoi les estimateurs ML ont-ils tendance à être à faible variance? Pourquoi ont-ils souvent un MSE inférieur à l'estimateur sans biais? De plus, je suis étonné de voir l'expression pour l'estimateur de variance MMSE; en quelque sorte, je ne l'ai jamais rencontré auparavant. Pourquoi est-il si rarement utilisé? Et cela a-t-il quelque chose à voir avec le retrait? Il semble qu'il soit "rétréci" de sans biais vers zéro, mais je suis confus par cela car j'ai l'habitude de penser au rétrécissement uniquement dans le contexte multivarié (dans le sens de James-Stein).
amibe dit Réintégrer Monica
1
Les MLE @amoeba sont généralement des fonctions de statistiques suffisantes, et au moins asymptotiquement sans variance minimale, donc vous vous attendez à ce qu'ils soient de faible variance dans de grands échantillons, atteignant généralement le CRLB dans la limite; cela se reflète souvent dans des échantillons plus petits.Les estimateurs MMSE sont généralement rétrécis vers zéro parce que cela réduit la variance (et donc un petit biais vers 0 introduit par un petit rétrécissement réduira généralement MSE).
Glen_b -Reinstate Monica
σ^MMSE2=S2n+1
Cela signifie-t-il également que l'estimateur ML de la variance n'est pas un estimateur à variance minimale? Sinon, l'estimateur MSE minimum serait une moyenne pondérée (avec des poids positifs) du MLE et de l'estimateur sans biais, mais maintenant il se situe en dehors de cette plage. Je pourrais poser cette question séparément si vous pensez que cela a du sens.
Richard Hardy
1
J'ai trouvé toute une dérivation dans un article Wikipedia sur MSE , je suppose que cela explique tout cela.
Richard Hardy
16

MLE donne la valeur la plus probable des paramètres du modèle, étant donné le modèle et les données disponibles - ce qui est un concept assez attrayant. Pourquoi choisiriez-vous des valeurs de paramètres qui rendent les données observées moins probables alors que vous pouvez choisir les valeurs qui rendent les données observées les plus probables sur n'importe quel ensemble de valeurs? Souhaitez-vous sacrifier cette fonctionnalité à l'impartialité? Je ne dis pas que la réponse est toujours claire, mais la motivation pour MLE est assez forte et intuitive.

En outre, le MLE peut être plus largement applicable que la méthode des moments, pour autant que je sache. MLE semble plus naturel dans le cas de variables latentes; par exemple, un modèle à moyenne mobile (MA) ou un modèle d'hétéroskédasticité conditionnelle autorégressive généralisée (GARCH) peut être directement estimé par MLE (j'entends directement par cela qu'il suffit de spécifier une fonction de vraisemblance et de la soumettre à une routine d'optimisation) - mais pas par la méthode des moments (bien qu'il puisse exister des solutions indirectes utilisant la méthode des moments).

Richard Hardy
la source
4
+1. Bien sûr, il y a beaucoup de cas où vous ne voulez pas l'estimation la plus probable, comme les modèles de mélange gaussiens (c'est-à-dire la probabilité illimitée). En général, une excellente réponse pour aider l'intuition des MLE.
Cliff AB
3
(+1) Mais je pense que vous devez ajouter une définition de la valeur du paramètre "le plus probable" comme étant celle à laquelle les données sont les plus susceptibles d'être assez claires. D'autres propriétés intuitivement souhaitables d'un estimateur sans rapport avec son comportement à long terme sous échantillonnage répété peuvent inclure le fait qu'il ne dépend pas de la façon dont vous paramétrez un modèle et qu'il ne produit pas d' estimations impossibles de la valeur réelle du paramètre.
Scortchi - Réintégrer Monica
6
Pensez qu'il y a toujours un risque que «le plus probable» soit lu comme «le plus probable».
Scortchi - Réintégrer Monica
2
@RichardHardy: Ils ne se ressemblent pas du tout. Très probablement, le soleil s'est éteint. Probablement pas.
user2357112 prend en charge Monica
2
@dsaxton: les statisticiens différencient la probabilité d'une valeur de paramètre, compte tenu des données, de la probabilité que les données reçoivent une valeur de paramètre depuis près d'un siècle - voir Fisher (1921) «Sur l'erreur probable d'une corrélation», Metron , 1 , pp 3-32 & Pawitan (2013), In All Lik vraisemblance: modélisation statistique et inférence utilisant la vraisemblance - donc même si les termes sont synonymes en usage ordinaire, il semble un peu tard maintenant pour objecter.
Scortchi - Réintégrer Monica
12

En fait, la mise à l'échelle des estimations du maximum de vraisemblance afin d'obtenir des estimations non biaisées est une procédure standard dans de nombreux problèmes d'estimation. La raison en est que le mle est une fonction des statistiques suffisantes et donc par le théorème de Rao-Blackwell si vous pouvez trouver un estimateur sans biais basé sur des statistiques suffisantes, alors vous avez un estimateur sans écart minimum de variance.

Je sais que votre question est plus générale que cela, mais je veux souligner que les concepts clés sont intimement liés à la probabilité et aux estimations qui en découlent. Ces estimations ne sont peut-être pas sans biais dans des échantillons finis, mais elles le sont asymptotiquement et elles sont en outre asymptotiquement efficaces, c'est-à-dire qu'elles atteignent la limite de variance de Cramer-Rao pour les estimateurs sans biais, ce qui n'est pas toujours le cas pour les estimateurs MOM.

JohnK
la source
11

Pour répondre à votre question de savoir pourquoi le MLE est si populaire, considérez que même s'il peut être biaisé, il est cohérent dans des conditions standard. De plus, il est asymptotiquement efficace, donc au moins pour les grands échantillons, le MLE est susceptible de faire aussi bien ou mieux que tout autre estimateur que vous pouvez préparer. Enfin, le MLE est trouvé par une recette simple; prendre la fonction de vraisemblance et la maximiser. Dans certains cas, cette recette peut être difficile à suivre, mais pour la plupart des problèmes, elle ne l'est pas. De plus, une fois que vous avez cette estimation, nous pouvons déduire les erreurs standard asymptotiques immédiatement en utilisant les informations de Fisher. Sans utiliser les informations de Fisher, il est souvent très difficile de déduire les limites d'erreur.

C'est pourquoi l'estimation MLE est très souvent l'outil d'estimation (sauf si vous êtes bayésien); il est simple à mettre en œuvre et susceptible d'être tout aussi bon sinon meilleur que tout ce dont vous avez besoin pour faire plus de travail pour cuisiner.

Cliff AB
la source
1
Pouvez-vous expliquer comment cela se compare à la méthode des moments, car cela semble être une partie importante du PO?
Antoni Parellada
1
comme l'a souligné whuber, les estimateurs MOM sont également biaisés, il n'y a donc pas d'avantage «sans biais» aux estimateurs MOM. De plus, lorsque les estimateurs MOM et MLE sont en désaccord, le MLE a tendance à avoir un MSE inférieur. Mais cette réponse est vraiment la raison pour laquelle les MLE ont tendance à être la valeur par défaut, plutôt qu'une comparaison directe avec d'autres méthodes.
Cliff AB
2
@AntoniParellada Il y a un fil intéressant pour comparer MLE et MoM, stats.stackexchange.com/q/80380/28746
Alecos Papadopoulos
3

J'ajouterais que parfois (souvent) nous utilisons un estimateur MLE parce que c'est ce que nous avons, même si dans un monde idéal ce ne serait pas ce que nous voulons. (Je pense souvent que les statistiques sont comme l'ingénierie, où nous utilisons ce que nous avons obtenu, pas ce que nous voulons.) Dans de nombreux cas, il est facile de définir et de résoudre le MLE, puis d'obtenir une valeur en utilisant une approche itérative. Alors que pour un paramètre donné dans une situation donnée, il peut y avoir un meilleur estimateur (pour une certaine valeur de "meilleur"), mais le trouver peut nécessiter d'être très intelligent; et quand vous avez fini d'être intelligent, vous n'avez toujours que le meilleur estimateur pour ce problème particulier.

eac2222
la source
1
Par curiosité, quel exemple de ce que vous souhaiteriez (dans le monde idéal)?
Glen_b -Reinstate Monica
2
@Glen_b: Dunno. Sans biais, variance la plus faible, facile à calculer sous forme fermée? Lorsque vous apprenez pour la première fois les estimateurs de la régression des moindres carrés, la vie semble plus simple qu'elle ne semble l'être.
eac2222