Je suis confus quant à la méthode du maximum de vraisemblance par rapport, par exemple, au calcul de la moyenne arithmétique.
Quand et pourquoi la probabilité maximale produit-elle de "meilleures" estimations que, par exemple, la moyenne arithmétique? Comment est-ce vérifiable?
maximum-likelihood
mavavilj
la source
la source
Réponses:
Alors que la moyenne arithmétique peut sembler être l'estimateur "naturel", on pourrait se demander pourquoi elle devrait être préférée à la MLE! La seule propriété sûre associée à la moyenne arithmétique est qu'il s'agit d'un estimateur non biaisé de E [ X ] lorsque cette espérance est définie. (Considérez la distribution de Cauchy comme un contre-exemple.) La dernière jouit en effet d'un large éventail de propriétés dans des conditions de régularité sur la fonction de vraisemblance. Pour emprunter à la page wikipedia , le MLE estx¯ E[X]
En comparaison avec la moyenne arithmétique, la plupart de ces propriétés sont également satisfaites pour des distributions suffisamment régulières. Sauf 4 et 5. Dans le cas des familles exponentielles, le MLE et la moyenne arithmétique sont identiques pour estimer le paramètre dans le paramétrage moyen (mais pas pour les autres paramétrisations). Et le MLE existe pour un échantillon de la distribution de Cauchy.
Cependant, lorsque l'on se tourne vers des propriétés d'optimalité d'échantillon fini comme la minimaxité ou l'admissibilité, il peut arriver que le MLE ne soit ni minimax ni admissible. Par exemple, l'effet Stein montre qu'il existe des estimateurs avec un risque quadratique plus faible pour toutes les valeurs du paramètre sous certaines contraintes sur la distribution de l'échantillon et la dimension du paramètre. C'est le cas lorsque et p ≥ 3 .x∼Np(θ,Ip) p≥3
la source
Interprétons le «calcul de la moyenne arithmétique» comme une estimation à l'aide de la méthode des moments (MoM). Je crois que cela est fidèle à la question d'origine puisque la méthode substitue les moyennes d'échantillonnage aux moyennes théoriques. Il répond également à la préoccupation de @ Xi'an concernant un paramètre arbitraire (à partir d'un modèle arbitraire).
Si vous êtes toujours avec moi, je pense qu'un bon endroit où aller est des exemples où la méthode des moments peut battre la probabilité maximale dans de petits échantillons? Le texte de la question souligne que «les estimateurs du maximum de vraisemblance (MLE) sont asymptotiquement efficaces; nous voyons le résultat pratique en ce qu'ils font souvent mieux que les estimations de la méthode des moments (MoM) (lorsqu'ils diffèrent)», et cherche des cas spécifiques où les estimateurs MoM obtenir une erreur quadratique moyenne plus petite que son homologue MLE. Quelques exemples sont fournis dans le contexte de la régression linéaire, de la distribution gaussienne inverse à deux paramètres et d'une distribution de puissance exponentielle asymétrique.
Cette idée d '«efficacité asymptotique» signifie que les estimateurs du maximum de vraisemblance sont probablement près d'utiliser les données à leur plein potentiel (pour estimer le paramètre en question), une garantie que vous n'obtenez pas avec la méthode des moments en général. Bien que la probabilité maximale ne soit pas toujours "meilleure" que de travailler avec des moyennes, cette propriété d'efficacité (si ce n'est que dans la limite) en fait une méthode de choix pour la plupart des fréquentateurs. Bien sûr, le contraire pourrait faire valoir qu'avec l'augmentation de la taille des ensembles de données, si vous pointez vers la bonne cible avec une fonction de moyennes, allez-y.
la source
Il existe plusieurs exemples célèbres où le maximum de vraisemblance (ML) ne fournit pas la meilleure solution. Voir l'article de Lucien Le Cam de 1990: «Maximum de vraisemblance: une introduction» [1] , extrait de ses conférences invitées à l'Univ. du Maryland.
L'exemple que j'aime le plus, parce que c'est tellement simple, est le suivant:
Je ne gâcherai pas le plaisir en vous donnant la réponse, mais (sans surprise) il y a deux façons de résoudre ce problème en utilisant ML et ils donnent des solutions différentes. L'une est la "moyenne arithmétique" des résidus au carré (comme on pourrait s'y attendre), et l'autre est la moitié de la moyenne arithmétique. Vous pouvez trouver la réponse ici sur ma page Github.
la source