Exemple d'estimation maximale a posteriori

11

J'ai lu à propos de l'estimation du maximum de vraisemblance et de l'estimation maximum a posteriori et jusqu'à présent, je n'ai rencontré d'exemples concrets qu'avec l'estimation du maximum de vraisemblance. J'ai trouvé quelques exemples abstraits d'estimation maximale a posteriori, mais rien de concret pour l'instant avec des chiffres: S

Cela peut être très écrasant, de travailler uniquement avec des variables et des fonctions abstraites, et afin de ne pas se noyer dans cette abstraitité, il est agréable de relier les choses au monde réel de temps en temps. Mais bien sûr, ce n'est que mon observation (et celle d'autres peuples) :)

Par conséquent, quelqu'un pourrait-il me donner un exemple simple mais concret d'estimation du Maximum A Posteriori avec des chiffres? Cela aiderait beaucoup :)

Je vous remercie!

J'ai initialement posté cette question sur MSE, mais je n'ai pas pu y répondre:

/math/449386/example-of-maximum-a-posteriori-estimation

J'ai suivi les instructions données ici sur la publication croisée:

http://meta.math.stackexchange.com/questions/5028/how-do-i-move-a-post-to-another-forum-like-cv-stats

jjepsuomi
la source

Réponses:

6

1er exemple

Un cas typique est le balisage dans le contexte du traitement du langage naturel. Voir ici pour une explication détaillée. L'idée est fondamentalement de pouvoir déterminer la catégorie lexicale d'un mot dans une phrase (est-ce un nom, un adjectif, ...). L'idée de base est que vous avez un modèle de votre langue composé d'un modèle de markov caché ( HMM ). Dans ce modèle, les états cachés correspondent aux catégories lexicales et les états observés aux mots réels.

Le modèle graphique respectif a la forme,

modèle graphique d'un HMM canonique

où est la séquence de mots dans la phrase, et est la séquence de balises.y=(y1,...,yN)x=(x1,...,xN)

Une fois formé, le but est de trouver la séquence correcte de catégories lexicales qui correspondent à une phrase d'entrée donnée. Ceci est formulé comme trouvant la séquence de balises qui sont les plus compatibles / les plus susceptibles d'avoir été générées par le modèle de langage, c'est-à-dire

f(y)=argmaxxYp(x)p(y|x)

2ème exemple

En fait, un meilleur exemple serait la régression. Non seulement parce qu'il est plus facile à comprendre, mais aussi parce que les différences entre le maximum de vraisemblance (ML) et le maximum a posteriori (MAP) sont claires.

Fondamentalement, le problème consiste à ajuster une fonction donnée par les échantillons avec une combinaison linéaire d'un ensemble de fonctions de base, où sont les fonctions de base et sont les poids. On suppose généralement que les échantillons sont corrompus par le bruit gaussien. Par conséquent, si nous supposons que la fonction cible peut être écrite exactement comme une telle combinaison linéaire, alors nous avons,t

y(x;w)=iwiϕi(x)
ϕ(x)w

t=y(x;w)+ϵ

nous avons donc La solution ML de ce problème équivaut à minimiser,p(t|w)=N(t|y(x;w))

E(w)=12n(tnwTϕ(xn))2

ce qui donne la solution d'erreur des moindres carrés bien connue. Maintenant, ML est sensible au bruit et, dans certaines circonstances, pas stable. MAP vous permet de choisir de meilleures solutions en imposant des contraintes sur les poids. Par exemple, un cas typique est la régression de crête, où vous exigez que les poids aient une norme aussi petite que possible,

E(w)=12n(tn-wTϕ(Xn))2+λkwk2

ce qui revient à définir un a priori gaussien sur les poids . Au total, les poids estimés sontN(w|0,λ-1je)

w=unergmjenwp(w;λ)p(t|w;ϕ)

Notez que dans MAP, les poids ne sont pas des paramètres comme dans ML, mais des variables aléatoires. Néanmoins, ML et MAP sont des estimateurs ponctuels (ils renvoient un ensemble optimal de poids, plutôt qu'une distribution de poids optimaux).

jpmuc
la source
+1 Salut @juampa merci pour votre réponse :) Mais je cherche toujours l'exemple plus concret :)
jjepsuomi
Merci encore @juampa. Comment procéderiez-vous maintenant pour trouver le qui minimise l'argmin? Utilisez-vous un gradient ou un algorithme itératif comme la méthode de Newton, etc.? w
jjepsuomi
1
exactement. On pourrait le résoudre directement (il existe une solution de forme fermée) mais implique d'inverser une matrice . Et c'est la raison de l'utilisation de méthodes itératives (spécialement lorsqu'il s'agit de problèmes de grande dimension). O(n3)
jpmuc
La première équation ? F(y)=unergmuneXXXp(X)p(y|X)
Lerner Zhang