Comparaison de l'estimation du maximum de vraisemblance (MLE) et du théorème de Bayes

12

Dans le théorème bayésien, , et dans le livre que je lis, est appelé le vraisemblance , mais je suppose que c'est juste la probabilité conditionnelle de étant donné , non?

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

L' estimation du maximum de vraisemblance tente de maximiser , non? Si oui, je suis très confus, car sont tous les deux des variables aléatoires, non? Pour maximiser suffit de découvrir le ? Encore un problème, si ces 2 variables aléatoires sont indépendantes, alors est juste , non? La maximisation de revient alors à maximiser .p(x|y)x,yp(x|y) y^p(x|y)p(x)p(x|y)p(x)

Ou peut-être que est fonction de certains paramètres , c'est-à-dire , et MLE essaie de trouver le qui peut maximiser ? Ou même que est en fait les paramètres du modèle, pas une variable aléatoire, maximiser la probabilité est de trouver le ?p(x|y)θp(x|y;θ)θp(x|y)yy^

MISE À JOUR

Je suis un novice en apprentissage automatique, et ce problème est une confusion avec ce que j'ai lu dans un didacticiel d'apprentissage automatique. Le voici, étant donné un ensemble de données observé , les valeurs cibles sont , et j'essaie d'ajuster un modèle sur cet ensemble de données , donc je suppose que, étant donné , a une forme de distribution nommée paramétrée par , c'est-à-dire , et je suppose que c'est la probabilité postérieure , non?{x1,x2,...,xn}{y1,y2,...,yn}xyWθp(y|x;θ)

Maintenant, pour estimer la valeur de , j'utilise MLE. OK, voici mon problème, je pense que la probabilité est , non? Maximiser la probabilité signifie que je devrais choisir le bon et ?θp(x|y;θ)θy

Si ma compréhension de la probabilité est fausse, veuillez me montrer la bonne façon.

Avocat
la source
Je pense que la confusion est la suivante: le théorème de Bayes n'est que la manipulation des probabilités conditionnelles que vous donnez au début de votre question. L' estimation bayésienne utilise le théorème de Bayes pour effectuer des estimations de paramètres. Ce n'est que dans ce dernier cas que l'estimation du maximum de vraisemblance (MLE) et le paramètre thêta, etc. entrent en jeu.
Zhubarb du
@Berkan, eh bien j'essaie de comprendre quelle est la probabilité, étant donné . x,y,θ
avocat
1
Je vois, je vous recommanderais de jeter un œil à ce grand ensemble de diapositives de cours d'introduction à l'estimation des paramètres.
Zhubarb
1
Un autre grand sujet à lire est les estimateurs empiriques de Bayes. Nous venons de découvrir ceux de ma classe :) biostat.jhsph.edu/~fdominic/teaching/bio656/labs/labs09/…
bdeonovic

Réponses:

16

Je pense que le principal malentendu découle des questions que vous posez dans la première moitié de votre question. J'approche cette réponse comme contrastant MLE et paradigmes inférentiels bayésiens. Une discussion très accessible du MLE se trouve dans le chapitre 1 de Gary King, Unifying Political Methodology. L'analyse des données bayésiennes de Gelman peut fournir des détails sur le côté bayésien.

Dans le théorème de Bayes, et dans le livre que je lis, est appelé le vraisemblance, mais je suppose que c'est juste la probabilité conditionnelle de

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

yxp(y)θyx

xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

Je crois que cette expression est ce que vous recherchez dans votre mise à jour.

p(x,y|θ)

p(x,y|θ)p(θ|x,y)
p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

x,y,θp(x,y|θ)θ^

θ^θθ^

Sycorax dit de réintégrer Monica
la source
1
Merci pour votre réponse, je mets à jour mon message, veuillez voir ma mise à jour.
avocat
yx(x,y)xy
+1 C'est toujours une excellente réponse: j'espère que vous le garderez en grande partie intact même si vous le modifiez pour qu'il corresponde aux changements de la question.
whuber
J'ai mis à jour ma réponse pour refléter votre question mise à jour. J'espère que ces détails vous aideront. Je recommande vraiment de faire référence aux références que je mentionne. Et j'espère que @whuber approuve toujours. ;-)
Sycorax dit Réintégrer Monica
p(y|x)x,yθ
3

p(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

Ou encore plus explicitement (en ce qui concerne la notion de vraisemblance):

p(θ|x)=L(θ;x)p(θ)p(x)

Pour un exemple concret, considérons le modèle

X|θBinomial(θ)θBeta(α,β)
David Marx
la source
yx
Y est généralement un paramètre sur le pdf de X. Dans un cadre fréquentiste, y est normalement une valeur fixe. Dans un cadre bayésien, Y est lui-même une variable aléatoire (comme dans l'exemple que j'ai donné). X | Y peut également être une probabilité conditionnelle dans le sens où vous l'entendez, j'essayais de vous expliquer pourquoi cette quantité est appelée la probabilité.
David Marx
θX
Ce n'est pas parce qu'une chose est une variable aléatoire qu'elle ne peut pas être un paramètre. Bienvenue dans le monde merveilleux de la probabilité bayésienne :)
David Marx
0
  • p(x|y)

p(x|y)xy

  • p(x|y)p(x)p(x|y)p(x)

p(x|y)=p(x)p(x)yy

  • p(x|y)θp(x|y;θ)θp(x|y)y^

θyp(x|y;θ)θ

Tapoter
la source
θxyθ
0

Du manuel de référence STAN:

Si l'a priori est uniforme, le mode postérieur correspond à l'estimation du maximum de vraisemblance (MLE) des paramètres. Si l'a priori n'est pas uniforme, le mode postérieur est parfois appelé l'estimation maximale a posteriori (MAP).

Neerav
la source