Estimation MLE vs MAP, quand utiliser laquelle?

14

MLE = Estimation du maximum de vraisemblance

MAP = Maximum a posteriori

Le MLE est intuitif / naïf en ce qu'il ne commence qu'avec la probabilité d'observation compte tenu du paramètre (c'est-à-dire la fonction de vraisemblance) et essaie de trouver le paramètre le plus conforme à l'observation . Mais il ne tient aucun compte des connaissances préalables.

Le MAP semble plus raisonnable car il prend en compte les connaissances préalables à travers la règle de Bayes.

Voici une question connexe, mais la réponse n'est pas complète. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

Donc, je pense que MAP est beaucoup mieux. Est-ce correct? Et quand dois-je utiliser lequel?

smwikipedia
la source

Réponses:

18

Si une probabilité préalable est donnée dans le cadre de la configuration du problème, utilisez ces informations (c'est-à-dire utilisez MAP). Si aucune information préalable n'est donnée ou supposée, alors MAP n'est pas possible et MLE est une approche raisonnable.

haricot
la source
9
Il convient d'ajouter que MAP avec des antérieurs plats équivaut à utiliser ML.
Tim
Il convient également de noter que si vous voulez un a priori mathématiquement "pratique", vous pouvez utiliser un a priori conjugué, s'il en existe un pour votre situation.
bean
8

Un bayésien serait d'accord avec vous, pas un fréquentateur. C'est une question d'opinion, de perspective et de philosophie. Je pense que cela fait beaucoup de mal à la communauté des statistiques d'essayer de faire valoir qu'une méthode est toujours meilleure que l'autre. De nombreux problèmes auront des solutions bayésiennes et fréquentistes qui sont similaires tant que le bayésien n'a pas un a priori trop fort.

jsk
la source
7
Ce n'est pas simplement une question d'opinion. Il existe des situations bien définies où un estimateur est meilleur que l'autre.
Tom Minka du
2
@TomMinka Je n'ai jamais dit qu'il n'y a pas de situations où une méthode est meilleure que l'autre! J'ai simplement répondu aux déclarations générales du PO telles que "le MAP semble plus raisonnable". Une telle affirmation équivaut à une affirmation selon laquelle les méthodes bayésiennes sont toujours meilleures, affirmation avec laquelle vous et moi sommes apparemment en désaccord.
jsk
jok a raison. Les approches bayésienne et fréquentiste sont philosophiquement différentes. Un fréquentiste strict trouverait donc l'approche bayésienne inacceptable.
Michael R. Chernick
2

En supposant que vous disposez d'informations préalables précises, MAP est préférable si le problème a une fonction de perte nulle sur l'estimation. Si la perte n'est pas nulle (et dans de nombreux problèmes du monde réel, elle ne l'est pas), il peut arriver que le MLE atteigne une perte attendue inférieure. Dans ces cas, il serait préférable de ne pas vous limiter à MAP et MLE comme les deux seules options, car elles sont toutes les deux sous-optimales.

Tom Minka
la source
L'estimateur MAP si un paramètre dépend de la paramétrisation, contrairement à la perte "0-1". 0-1 entre guillemets parce qu'à mon avis, tous les estimateurs donneront généralement une perte de 1 avec une probabilité de 1, et toute tentative de construire une approximation introduit à nouveau le problème de paramétrisation
guy
1
À mon avis, la perte zéro-un dépend du paramétrage, il n'y a donc pas d'incohérence.
Tom Minka
0

La réponse courte de @bean l'explique très bien. Cependant, je voudrais signaler la section 1.1 du document Gibbs Sampling for the uninited par Resnik et Hardisty qui approfondit la question. J'écris quelques lignes de cet article avec de très légères modifications (cette réponse répète peu de choses que OP sait par souci d'exhaustivité)

MLE

MLE formellement produit le choix (du paramètre du modèle) le plus susceptible de générer les données observées.

CARTE

Une MAP estimée est le choix le plus probable compte tenu des données observées. Contrairement à MLE, l'estimation MAP applique la règle de Bayes, de sorte que notre estimation peut prendre en compte les connaissances antérieures sur ce que nous attendons de nos paramètres sous la forme d'une distribution de probabilité antérieure.

Capture

Les estimations MLE et MAP nous donnent toutes les deux la meilleure estimation, selon leurs dé nitions respectives de «meilleure». Mais notez que l'utilisation d'une seule estimation - que ce soit MLE ou MAP - jette des informations. En principe, le paramètre peut avoir n'importe quelle valeur (du domaine); ne pourrions-nous pas obtenir de meilleures estimations si nous tenions compte de l'ensemble de la distribution, plutôt que d'une seule valeur estimée pour le paramètre? Si nous le faisons, nous utilisons toutes les informations sur le paramètre que nous pouvons tordre à partir des données observées, X.

Donc, avec cette capture, nous pourrions vouloir n'en utiliser aucune. De plus, comme déjà mentionné par bean et Tim, si vous devez utiliser l'un d'eux, utilisez MAP si vous l'avez déjà obtenu. Si vous n'avez pas de priors, MAP se réduit à MLE. Les antécédents conjugués aideront à résoudre le problème analytiquement, sinon utilisez l'échantillonnage de Gibbs.

Gaurav Singhal
la source
0

θ^MAP=argmaxθlogP(θ|D)=argmaxθlogP(D|θ)P(θ)P(D)=argmaxθlogP(D|θ)P(θ)=argmaxθlogP(D|θ)log-likelihood+logP(θ)regularizer

Le prior est traité comme un régularisateur et si vous connaissez la distribution précédente, par exemple Gaussin ( ) en régression linéaire, et il est préférable d'ajouter que régularisation pour de meilleures performances.exp(λ2θTθ)

Lerner Zhang
la source
-2

Si les données sont moindres et que vous avez des priorités disponibles - "GO FOR MAP". Si vous avez beaucoup de données, la MAP convergera vers MLE. Ainsi, en cas de nombreux scénarios de données, il est toujours préférable de faire MLE plutôt que MAP.

Heisenbug
la source
1
Ce n'est pas si simple.
Michael R. Chernick
@MichaelChernick Je me trompe peut-être. J'ai lu ça à l'école doctorale. Je vous demande de me corriger là où je me suis trompé.
Heisenbug
L'approche fréquentiste et l'approche bayésienne sont philosophiquement différentes. L'approche fréquentielle estime la valeur des paramètres du modèle sur la base d'un échantillonnage répété. L'approche bayésienne traite le paramètre comme une variable aléatoire. Ainsi, dans l'approche bayésienne, vous dérivez la distribution postérieure du paramètre combinant une distribution antérieure avec les données. MAP recherche le pic le plus élevé de la distribution postérieure tandis que MLE estime le paramètre en ne regardant que la fonction de vraisemblance des données.
Michael R. Chernick
@MichaelChernick - Merci pour votre contribution. Mais MAP ne se comporte-t-il pas comme un MLE une fois que nous avons des données suffisantes. Si nous brisons l'expression MAP, nous obtenons également un terme MLE. Avec une grande quantité de données, le terme MLE dans le MAP prend le pas sur le précédent.
Heisenbug
Cela dépend de l'avant et de la quantité de données. Ils peuvent donner des résultats similaires dans de grands échantillons. La différence réside dans l'interprétation. Mon commentaire visait à montrer que ce n'est pas aussi simple que vous le faites. Avec une petite quantité de données, il ne s'agit pas simplement de choisir MAP si vous en avez un. Un a priori mal choisi peut conduire à une mauvaise distribution postérieure et donc une mauvaise MAP.
Michael R. Chernick