L'estimation du maximum de vraisemblance se traduit souvent par des estimateurs biaisés (par exemple, son estimation de la variance de l'échantillon est biaisée pour la distribution gaussienne).
Qu'est-ce qui le rend si populaire? Pourquoi est-il utilisé autant? De plus, qu'est-ce qui la rend meilleure que l'approche alternative - la méthode des moments?
De plus, j'ai remarqué que pour le gaussien, une simple mise à l'échelle de l'estimateur MLE le rend non biaisé. Pourquoi cette mise à l'échelle n'est-elle pas une procédure standard? Je veux dire - Pourquoi est-ce qu'après le calcul MLE, il n'est pas routinier de trouver la mise à l'échelle nécessaire pour rendre l'estimateur sans biais? La pratique standard semble être le simple calcul des estimations MLE, sauf bien sûr pour le cas gaussien bien connu où le facteur d'échelle est bien connu.
Réponses:
L'impartialité n'est pas nécessairement particulièrement importante en soi.
Mis à part un ensemble très limité de circonstances, la plupart des estimateurs utiles sont biaisés, mais ils sont obtenus.
Si deux estimateurs ont la même variance, on peut facilement monter un argument pour préférer un biais à un biais, mais c'est une situation inhabituelle (c'est-à-dire que vous pouvez raisonnablement préférer le biais, ceteris paribus - mais ces embêtants ceteris ne sont presque jamais paribus ).
Plus généralement, si vous voulez une impartialité, vous ajouterez une certaine variance pour l'obtenir, et la question serait alors pourquoi feriez-vous cela ?
Le biais est la mesure dans laquelle la valeur attendue de mon estimateur sera trop élevée en moyenne (avec un biais négatif indiquant trop faible).
Lorsque je considère un petit estimateur d'échantillon, je m'en fiche vraiment. Je suis généralement plus intéressé à savoir dans quelle mesure mon estimateur aura tort dans ce cas - ma distance typique de la droite ... quelque chose comme une erreur quadratique moyenne ou une erreur absolue moyenne aurait plus de sens.
Donc, si vous aimez une faible variance et un faible biais, demander un estimateur d' erreur quadratique moyenne minimum aurait du sens; ce sont très rarement impartiaux.
Le biais et l'impartialité sont une notion utile à connaître, mais ce n'est pas une propriété particulièrement utile à rechercher, sauf si vous comparez uniquement des estimateurs avec la même variance.
Les estimateurs ML ont tendance à être peu variés; ils ne sont généralement pas un MSE minimum, mais ils ont souvent un MSE inférieur à ce que vous apporterait la modification pour qu'ils soient impartiaux (quand vous pouvez le faire).
A titre d'exemple, considérons l' estimation de la variance lors de l' échantillonnage d'une distribution normale σ 2 MMSE = S 2 (en effet, le MMSE pour la variance a toujours un dénominateur plus grand quen-1).σ^2MMSE= S2n + 1, σ^2MLE= S2n, σ^2Unb= S2n - 1 n - 1
la source
MLE donne la valeur la plus probable des paramètres du modèle, étant donné le modèle et les données disponibles - ce qui est un concept assez attrayant. Pourquoi choisiriez-vous des valeurs de paramètres qui rendent les données observées moins probables alors que vous pouvez choisir les valeurs qui rendent les données observées les plus probables sur n'importe quel ensemble de valeurs? Souhaitez-vous sacrifier cette fonctionnalité à l'impartialité? Je ne dis pas que la réponse est toujours claire, mais la motivation pour MLE est assez forte et intuitive.
En outre, le MLE peut être plus largement applicable que la méthode des moments, pour autant que je sache. MLE semble plus naturel dans le cas de variables latentes; par exemple, un modèle à moyenne mobile (MA) ou un modèle d'hétéroskédasticité conditionnelle autorégressive généralisée (GARCH) peut être directement estimé par MLE (j'entends directement par cela qu'il suffit de spécifier une fonction de vraisemblance et de la soumettre à une routine d'optimisation) - mais pas par la méthode des moments (bien qu'il puisse exister des solutions indirectes utilisant la méthode des moments).
la source
En fait, la mise à l'échelle des estimations du maximum de vraisemblance afin d'obtenir des estimations non biaisées est une procédure standard dans de nombreux problèmes d'estimation. La raison en est que le mle est une fonction des statistiques suffisantes et donc par le théorème de Rao-Blackwell si vous pouvez trouver un estimateur sans biais basé sur des statistiques suffisantes, alors vous avez un estimateur sans écart minimum de variance.
Je sais que votre question est plus générale que cela, mais je veux souligner que les concepts clés sont intimement liés à la probabilité et aux estimations qui en découlent. Ces estimations ne sont peut-être pas sans biais dans des échantillons finis, mais elles le sont asymptotiquement et elles sont en outre asymptotiquement efficaces, c'est-à-dire qu'elles atteignent la limite de variance de Cramer-Rao pour les estimateurs sans biais, ce qui n'est pas toujours le cas pour les estimateurs MOM.
la source
Pour répondre à votre question de savoir pourquoi le MLE est si populaire, considérez que même s'il peut être biaisé, il est cohérent dans des conditions standard. De plus, il est asymptotiquement efficace, donc au moins pour les grands échantillons, le MLE est susceptible de faire aussi bien ou mieux que tout autre estimateur que vous pouvez préparer. Enfin, le MLE est trouvé par une recette simple; prendre la fonction de vraisemblance et la maximiser. Dans certains cas, cette recette peut être difficile à suivre, mais pour la plupart des problèmes, elle ne l'est pas. De plus, une fois que vous avez cette estimation, nous pouvons déduire les erreurs standard asymptotiques immédiatement en utilisant les informations de Fisher. Sans utiliser les informations de Fisher, il est souvent très difficile de déduire les limites d'erreur.
C'est pourquoi l'estimation MLE est très souvent l'outil d'estimation (sauf si vous êtes bayésien); il est simple à mettre en œuvre et susceptible d'être tout aussi bon sinon meilleur que tout ce dont vous avez besoin pour faire plus de travail pour cuisiner.
la source
J'ajouterais que parfois (souvent) nous utilisons un estimateur MLE parce que c'est ce que nous avons, même si dans un monde idéal ce ne serait pas ce que nous voulons. (Je pense souvent que les statistiques sont comme l'ingénierie, où nous utilisons ce que nous avons obtenu, pas ce que nous voulons.) Dans de nombreux cas, il est facile de définir et de résoudre le MLE, puis d'obtenir une valeur en utilisant une approche itérative. Alors que pour un paramètre donné dans une situation donnée, il peut y avoir un meilleur estimateur (pour une certaine valeur de "meilleur"), mais le trouver peut nécessiter d'être très intelligent; et quand vous avez fini d'être intelligent, vous n'avez toujours que le meilleur estimateur pour ce problème particulier.
la source