Pourquoi MAP converge-t-il vers MLE?

8

Dans "L'apprentissage automatique: une perspective probabiliste" de Kevin Murphy, le chapitre 3.2, l'auteur montre l'apprentissage conceptuel bayésien sur un exemple appelé "jeu de nombres": Après avoir observé N des échantillons de {1,...,100}, nous voulons choisir une hypothèse qui décrit le mieux la règle qui a généré les échantillons. Par exemple, "nombres pairs" ou "nombres premiers".h

Les estimations du maximum a-posteriori et du maximum de vraisemblance sont définies comme suit:

h^MAP=argmaxh p(D|h)p(h)=argmaxh[logp(D|h)+logp(h)],

h^MLE=argmaxh p(D|h)=argmaxhlogp(D|h),

p(h) représente les probabilités a priori de diverses hypothèses et le postérieur est défini comme:

p(D|h)=[1|h|]N,

ssi Dh , c'est-à-dire, quelle est la probabilité qu'un échantillonnage uniforme avec remplacement de l'hypothèse h produise l'ensemble D . Intuitivement, cela signifie que le postérieur est le plus élevé pour les "plus petites" hypothèses. Par exemple, les hypothèses "puissances de 2" expliquent mieux les observations {2,4,8,16,64} que les "nombres pairs".

Tout cela est clair. Cependant, je suis confus au sujet de la phrase suivante (même si elle est intuitivement parfaitement logique):

Étant donné que le terme de vraisemblance dépend de façon exponentielle de N et que les antérieurs restent constants, à mesure que nous obtenons de plus en plus de données, l'estimation MAP converge vers l'estimation de vraisemblance maximale.

Il est vrai que la probabilité dépend exponentiellement de , cependant, le nombre exponenti est dans l'intervalle et comme , , donc la probabilité devrait en fait disparaître.N(0,1)NxN0

Pourquoi MAP converge-t-il vers MLE dans ce cas?

Jan Kukacka
la source
1
Ceci est une conséquence du théorème de Bernstein - von Mises: nber.org/WNE/Slides7-31-07/slides_7_bayes.pdf (commencez à la diapositive 9.) Aussi: andrewgelman.com/2017/11/27/asymptotically-we- sont tous morts .
jbowman
Merci pour les références. Mais comment expliquent-ils cet exemple contradictoire?
Jan Kukacka

Réponses:

5

Il y a deux problèmes ici, premièrement, pourquoi le MAP converge-t-il vers le MLE en général (mais pas toujours) et le problème de la "probabilité de fuite".

Pour le premier numéro, nous nous référons au théorème de Bernstein - von Mises. L'essentiel est que, à mesure que la taille de l'échantillon augmente, les informations relatives contenues dans les données antérieures et dans les données changent en faveur des données, de sorte que le postérieur se concentre davantage autour de l'estimation des données uniquement du MLE et du pic converge en fait vers le MLE (avec la mise en garde habituelle que certaines hypothèses doivent être remplies.) Voir la page Wikipedia pour un bref aperçu.

Pour le deuxième problème, cela vient du fait que vous n'avez pas normalisé la densité postérieure. Selon la règle de Bayes:

P(h|D)=P(D|h)p(h)p(D)

et, bien que comme , comme vous le constatez, . Pour un peu plus concret, si nous supposons deux hypothèses et , nous trouvons le postérieur par:P(D|h)0nP(D)h1h2

P(h1|D)=P(D|h1)p(h1)P(D|h1)p(h1)+P(D|h2)p(h2)

Le numérateur et le dénominateur ont tous deux des termes élevés à la puissance , donc tous les deux comme , mais il doit être clair que la normalisation requise corrige le problème que cela entraînerait autrement.N0N

jbowman
la source