1er exemple
Un cas typique est le balisage dans le contexte du traitement du langage naturel. Voir ici pour une explication détaillée. L'idée est fondamentalement de pouvoir déterminer la catégorie lexicale d'un mot dans une phrase (est-ce un nom, un adjectif, ...). L'idée de base est que vous avez un modèle de votre langue composé d'un modèle de markov caché ( HMM ). Dans ce modèle, les états cachés correspondent aux catégories lexicales et les états observés aux mots réels.
Le modèle graphique respectif a la forme,
où est la séquence de mots dans la phrase, et est la séquence de balises.y =(y1 , . . . , yN)x =(x1,..., xN)
Une fois formé, le but est de trouver la séquence correcte de catégories lexicales qui correspondent à une phrase d'entrée donnée. Ceci est formulé comme trouvant la séquence de balises qui sont les plus compatibles / les plus susceptibles d'avoir été générées par le modèle de langage, c'est-à-dire
F( y) = a r g m a xx ∈Yp ( x ) p ( y | x )
2ème exemple
En fait, un meilleur exemple serait la régression. Non seulement parce qu'il est plus facile à comprendre, mais aussi parce que les différences entre le maximum de vraisemblance (ML) et le maximum a posteriori (MAP) sont claires.
Fondamentalement, le problème consiste à ajuster une fonction donnée par les échantillons avec une combinaison linéaire d'un ensemble de fonctions de base,
où sont les fonctions de base et sont les poids. On suppose généralement que les échantillons sont corrompus par le bruit gaussien. Par conséquent, si nous supposons que la fonction cible peut être écrite exactement comme une telle combinaison linéaire, alors nous avons,t
y( x ; w ) = ∑jewjeϕje( x )
ϕ ( x )w
t = y( x ; w ) + ϵ
nous avons donc
La solution ML de ce problème équivaut à minimiser,p ( t | w ) = N( t | y( x ; w ) )
E( w ) = 12∑n( tn- wTϕ ( xn) )2
ce qui donne la solution d'erreur des moindres carrés bien connue. Maintenant, ML est sensible au bruit et, dans certaines circonstances, pas stable. MAP vous permet de choisir de meilleures solutions en imposant des contraintes sur les poids. Par exemple, un cas typique est la régression de crête, où vous exigez que les poids aient une norme aussi petite que possible,
E( w ) = 12∑n( tn- wTϕ ( xn) )2+ λ ∑kw2k
ce qui revient à définir un a priori gaussien sur les poids . Au total, les poids estimés sontN( w | 0 , λ- 1Je )
w = a r g m i nwp ( w ; λ ) p ( t | w ; ϕ )
Notez que dans MAP, les poids ne sont pas des paramètres comme dans ML, mais des variables aléatoires. Néanmoins, ML et MAP sont des estimateurs ponctuels (ils renvoient un ensemble optimal de poids, plutôt qu'une distribution de poids optimaux).