Quelle est la différence entre l'estimation bayésienne et l'estimation du maximum de vraisemblance?

Veuillez m'expliquer la différence entre l'estimation bayésienne et l'estimation du maximum de vraisemblance?

bayesian maximum-likelihood triomphe
la source

Dépend du type d'estimation bayésienne. CARTE? Postérieur signifie? Le résultat de la minimisation du risque de Bayes pour une fonction de perte? Chacun de ce qui précède? Autre chose?

Glen_b

J'ai répondu à cette question, ou à un analogue, ici. stats.stackexchange.com/questions/73439/… Quels problèmes rencontrez-vous pour comprendre les deux? Plus de détails nous aideront à mieux répondre.

Réintégrer Monica

D'après le manuel de référence STAN: "Si le préalable est uniforme, le mode postérieur correspond à l'estimation de vraisemblance maximale (MLE) des paramètres. Si le préalable n'est pas uniforme, le mode postérieur est parfois appelé estimation maximale a posteriori (MAP). "

Neerav

@Neerav c'est la réponse dont j'avais besoin. thx

javadba

Une réponse éventuellement utile pour le cas spécifique de l'estimation bayésienne maximum a posteriori est donnée ici .

pglpm

Réponses:

C'est une question très large et ma réponse ici ne fait que commencer à gratter un peu la surface. J'utiliserai la règle de Bayes pour expliquer les concepts.

Supposons qu'un ensemble de paramètres de distribution de probabilité, , explique le mieux l'ensemble de données . Nous pouvons souhaiter estimer les paramètres à l'aide de la règle de Bayes: $\theta$ $D$ $\theta$

p (θ | D) = \frac{p (D | θ) * p (θ)}{p (D)}

$p(\theta|D)=\frac{p(D|\theta) * p(\theta)}{p(D)}$

p o s t e r i o r = \frac{l i k e l i h o o d * p r i o r}{e v i d e n c e}

$posterior = \frac{likelihood * prior}{evidence}$

Les explications suivent:

Estimation de vraisemblance maximale

Avec MLE, nous recherchons une valeur en points pour qui maximise la probabilité, , illustrée dans la ou les équations ci-dessus. On peut désigner cette valeur comme . En est une estimation ponctuelle, pas une variable aléatoire. $\theta$ $p(D|\theta)$ $\hat{\theta}$ $\hat{\theta}$

En d’autres termes, dans l’équation ci-dessus, MLE traite le terme est une constante et ne nous permet PAS d’injecter nos croyances antérieures,, sur les valeurs probables dedans les calculs d’estimation. $\frac{p(\theta)}{p(D)}$ $p(\theta)$ $\theta$

Estimation bayésienne

L'estimation bayésienne, en revanche, calcule complètement (ou parfois approximativement) la distribution postérieure . L'inférence bayésienne considère comme une variable aléatoire. Dans l'estimation bayésienne, nous introduisons des fonctions de densité de probabilité et obtenons des fonctions de densité de probabilité, plutôt qu'un seul point comme dans MLE. $p(\theta|D)$ $\theta$

$\theta$ $p(\theta|D)$ $\theta$ $\theta$ $\theta$

$evidence$

p (D) = \int_{θ} p (D | θ) * p (θ) d θ

$p(D) = \int_{\theta} p(D|\theta) * p(\theta) d\theta$

Cela conduit au concept de «prieur conjugué» dans l'estimation bayésienne. Pour une fonction de vraisemblance donnée, si nous avons le choix quant à la façon dont nous exprimons nos croyances antérieures, nous devons utiliser la forme qui nous permet de réaliser l'intégration présentée ci-dessus. L'idée des a priori conjugués et de la manière dont ils sont mis en œuvre dans la pratique est très bien expliquée dans ce billet de COOlSerdash.

Zhubarb
la source

Souhaitez-vous élaborer davantage à ce sujet? : "le dénominateur dans la règle de Bayes, à savoir la preuve."

Daniel

J'ai étendu ma réponse.

Zhubarb

@Berkan dans l'équation ici, P (D | theta) est la probabilité. Cependant, la fonction de vraisemblance est définie comme P (theta | D), c’est-à-dire la fonction de paramètre, donnée donnée. Je suis toujours confus à ce sujet. Le terme vraisemblance fait référence à différentes choses ici? Pouvez-vous développer sur ce sujet? Merci beaucoup!

Zesla

@ zesla si ma compréhension est correcte, P (thêta | D) n'est pas la probabilité - c'est la postérieure. C'est-à-dire que la distribution de thêta dépend de la source de données dont vous disposez. La probabilité est comme vous l'avez dit: P (D | thêta) - la distribution de vos données paramétrée par thêta, ou peut-être plus intuitivement, la «probabilité de voir ce que vous voyez» en fonction de thêta. Cela a-t-il du sens? Tout le monde: corrigez-moi s'il vous plaît où je me trompe.

grisaitis

@zesla, l'explication donnée par grisaitis est correcte.

Zhubarb

Je pense que vous parlez d'estimation ponctuelle comme dans l'inférence paramétrique, de sorte que nous puissions supposer un modèle de probabilité paramétrique pour un mécanisme de génération de données, mais la valeur réelle du paramètre est inconnue.

L'estimation de vraisemblance maximale consiste à utiliser un modèle de probabilité pour les données et à optimiser la fonction de vraisemblance conjointe des données observées sur un ou plusieurs paramètres. On voit donc que les paramètres estimés sont les plus cohérents avec les données observées par rapport à tout autre paramètre de l'espace des paramètres. Notez que ces fonctions de vraisemblance ne sont pas nécessairement considérées comme étant "conditionnelles" aux paramètres, car les paramètres ne sont pas des variables aléatoires. Il est donc un peu plus sophistiqué de concevoir la probabilité de résultats différents comparant deux paramétrisations différentes. Il s’avère qu’il s’agit d’une approche philosophiquement saine.

L'estimation bayésienne est un peu plus générale car nous ne maximisons pas nécessairement l'analogue bayésien de la vraisemblance (la densité postérieure). Cependant, le type d'estimation analogue (ou estimation en mode postérieur) est considéré comme maximisant la probabilité que le paramètre postérieur soit conditionnel aux données. Habituellement, les estimations de Bayes obtenues de cette manière se comportent presque exactement comme celles de ML. La principale différence est que l'inférence de Bayes permet à une méthode explicite d'incorporer des informations antérieures.

Aussi 'L'histoire épique du maximum de vraisemblance permet une lecture éclairante

http://arxiv.org/pdf/0804.2996.pdf

AdamO
la source

Souhaitez-vous élaborer davantage à ce sujet? "Cependant, le type d'estimation analogue (ou estimation en mode postérieur) est considéré comme maximisant la probabilité que le paramètre postérieur soit conditionnel aux données."

Daniel

Le mode postérieur est un peu impropre car, avec les FD continus, la valeur est bien définie. Les densités postérieures sont liées à la probabilité dans le cas fréquentiste, sauf que cela vous permet de simuler des paramètres à partir de la densité postérieure. Il est intéressant de noter que, de manière très intuitive, la "moyenne postérieure" est la meilleure estimation ponctuelle du paramètre. Cette approche est souvent utilisée et, pour les densités unimodales symétriques, il en résulte des intervalles crédibles valides, compatibles avec ML. Le mode postérieur n'est que la valeur du paramètre au sommet de la densité postérieure.

AdamO

À propos de "cela produit des intervalles crédibles valides, compatibles avec ML.": Cela dépend vraiment du modèle, non? Ils pourraient être compatibles ou non ...

Daniel

La question des hypothèses paramétriques sous-jacentes motive une discussion sur l' inférence totalement paramétrique par rapport à une inférence semi-paramétrique ou non paramétrique. Ce n'est pas un problème de ML vs Bayesian et vous n'êtes pas le premier à faire cette erreur. ML est une approche entièrement paramétrique, elle vous permet d’estimer certaines choses que SP ou NP ne peuvent pas (et souvent plus efficacement quand elles le peuvent). Spécifier correctement le modèle de probabilité dans ML revient à choisir le bon précédent et toutes les propriétés de robustesse (et les problèmes de sensibilité) qu’il implique.

AdamO

BTW, vos commentaires ont enflammé cette question dans mon esprit. Des commentaires à ce sujet? stats.stackexchange.com/questions/74164/…

Daniel

L'estimation bayésienne est l'inférence bayésienne alors que la MLE est un type de méthode d'inférence fréquentiste.

$f(x_1,...,x_n; \theta) = \frac{f(\theta; x_1,...,x_n) * f(x_1,...,x_n)}{f(\theta)}$ $likelihood = \frac{posterior * evidence}{prior}$ $p(\theta) = 1/6$

L'alternative de MLE en inférence bayésienne est appelée estimation maximale a posteriori (MAP en abrégé). En réalité, MLE est un cas particulier de MAP où le prieur est uniforme, comme nous le voyons ci-dessus et comme indiqué dans Wikipedia :

Du point de vue de l'inférence bayésienne, la MLE est un cas particulier d'estimation maximale a posteriori (MAP) qui suppose une distribution antérieure uniforme des paramètres.

Pour plus de détails, veuillez vous référer à cet article génial: MLE vs MAP: le lien entre le maximum de vraisemblance et l'estimation maximum a posteriori .

Et une différence supplémentaire est que le maximum de probabilité est sujet à une surévaluation, mais si vous adoptez l'approche bayésienne, le problème de suréquipement peut être évité.

Lerner Zhang
la source

L'un des avantages de Bayes est que vous n'êtes pas obligé de calculer une estimation ponctuelle du tout. Toute la densité postérieure peut être votre "estimation".

Frank Harrell

@ FrankHarrell Cher professeur Harrell, pourriez-vous m'aider à modifier la réponse si je faisais de terribles erreurs quelque part? Merci beaucoup!

Lerner Zhang

Je ne voulais pas dire que vous aviez commis une erreur.

Frank Harrell

@lerner: Je veux mettre en garde contre l'identification de l'estimation du maximum de vraisemblance comme un cas particulier de l'estimation maximum a posteriori (lorsque le préalable est constant): voir pourquoi dans cette réponse .

pglpm