MAP est une solution à

10

J'ai rencontré ces diapositives (diapositives # 16 et # 17) dans l'un des cours en ligne. L'instructeur tentait d'expliquer comment l'estimation maximale postérieure (MAP) est en fait la solution L(θ)=I[θθ] , où θ est le véritable paramètre.

Quelqu'un peut-il expliquer comment cela suit?

Modifier: Ajout des diapositives, au cas où le lien serait rompu. entrez la description de l'image ici

entrez la description de l'image ici

Honeybadger
la source

Réponses:

3

En parcourant les diapositives que vous avez partagées, il me semble que l'idée est d'expliquer comment l'estimation MAP peut être utilisée pour estimer différentes propriétés de la partie postérieure, telles que la moyenne, le mode et la médiane. J'essaierai d'expliquer cela dans le contexte des estimateurs bayésiens généraux tels que présentés dans le livre de Stephen M. Kay, Fundamentals of Statistical Signal Processing .

Commençons par considérer trois types de risques (c.-à-d. Les fonctions de coût) associés à l'estimation du paramètre θ :

  1. C(e)=e2
  2. C(e)=|e|
  3. ifδ<e<δ,C(e)=0 ; sinonC(e)=1

e=θθ^ , où θ est la valeur estimée et θ est le paramètre vrai. Dans l'estimation bayésienne, l'objectif est de minimiser le risque attendu, c'est-à-dire:θ^θ

E[C(e)]=XθC(e)p(X,θ)dθdX=X[θC(e)p(θ|X)dθ]p(X)dX

θminθθC(e)p(θ|X)dθ

Maintenant, selon le nous choisissons, l'estimateur nous donnera une propriété différente du postérieur. Par exemple, si nous choisissons le premier cas, , la minimisation pour , est la moyenne. Puisque votre question concerne la fonction d'indicateur , je vais aborder le troisième risque mentionné ci-dessus (qui si vous y pensez pour est équivalent à utiliser l'indicateur).C(e)C(e)=e2θθC(e)p(θ|X)dθI[θ^θ]δ0

Pour le cas 3 ci-dessus:

θC(e)p(θ|X)dθ=θ^δp(θ|X)dθ+θ^+δp(θ|X)dθ=1θ^+δθ^+δp(θ|X)dθ

ce qui pour est minimisé lorsque correspond au mode de la postérieure.δ0θθ^

idnavid
la source
2
Merci pour la merveilleuse explication. En outre, les futurs lecteurs peuvent lire la même chose dans un manuel similaire: Chapitre 5 de Machine_Learning a Probabilistic Perspective par Kevin Murphy
honeybadger
Pourriez-vous spécifier les détails de cet argument limitant dans ? Voulez-vous dire la limite de la procédure lorsque passe à zéro ou la limite de la perte postérieure? δδδ
Xi'an
Je fais référence à la limite de l'attente . E[C(e)]
idnavid
10

Dans le cas spécifique, l'espace des paramètres est fini ou dénombrable infini la perte postérieure associée à la perte d'indicateur est égale à la probabilité de se tromper et il est minimisé lorsque la probabilité postérieure d'être correcte est maximisée. Cela signifie que est le mode de la distribution postérieure ou MAP.& thetav = { θ 1 , θ 2 , ... } P ( θθ | x ) P ( θ = θ | x ) θΘ

Θ={θ1,θ2,}
P(θ^θ|x)P(θ^=θ|x)θ^

Cependant, cette association de MAP et de perte est un "théorème populaire" en ce qu'elle est incorrecte dans la plupart des paramètres, c'est-à-dire qu'elle ne s'applique pas aux espaces de paramètres continus où pour tous les et cela entre en conflit avec les résultats de Druihlet et Marin (BA, 2007), qui soulignent que le MAP dépend en fin de compte du choix de la mesure dominante. (Même si la mesure de Lebesgue est implicitement choisie comme valeur par défaut.)P ( θ = θ | x ) = 0 θ01P(θ^=θ|x)=0θ^

Par exemple, Evans et Jang ont publié un article arXiv en 2011 où ils discutent du lien entre le MAP, les estimateurs de moindre surprise relative (ou de probabilité de profil maximale) et les fonctions de perte. Le cœur du problème est que ni les estimateurs MAP ni les MLE ne sont vraiment justifiés par une approche théorique de la décision, au moins dans un espace de paramètres continu. Et que la mesure dominante [arbitrairement] choisie sur l'espace des paramètres impacte la valeur du MAP, comme l'ont démontré Druihlet et Marin en 2007. Ils commencent dans le cas fini par la fonction de perte

L(θ,d)=I{Ψ(θ)d)/πΨ(Ψ(θ))
où ils considèrent l'estimation de la transformée Ψ (θ) par d, inversement pondérée par le prior marginal sur cette transformée. Dans le cas particulier de la transformation d'identité, cette fonction de perte conduit au MLE comme estimateur de Bayes. Dans le cas général, l'estimateur de Bayes est l'estimateur du maximum de vraisemblance du profil (LRSE). Cependant, cette fonction de perte ne se généralise pas à des espaces de paramètres infiniment comptables (et évidemment continus) et dans de tels paramètres, les auteurs ne peuvent fournir des LRSE que comme limites des procédures de Bayes. La fonction de perte adoptée dans le cas dénombrable est par exemple
L(θ,d)=I{Ψ(θ)d}/max{η,πΨ(Ψ(θ))}
avec la borne décroissante à zéro. Dans le cas continu, l'indicateur ne fonctionne plus, donc le choix fait par les auteurs est de discrétiser l'espace Ψ (Θ) par un choix spécifique d'une partition de billes dont les diamètres λ vont à zéro. Dans l'esprit de Druihlet et Marin, ce choix dépend d'une métrique (et d'autres conditions de régularité). De plus, le LRSE lui-même dépend de la version choisie pour les densités (sinon de la mesure dominante), sauf si une impose partout l'égalité Bayes partout, quand et
maxψπψ(ψ|x)/πψ(θ)
πψ(ψ|x)/πψ(θ)=f(x|ψ)/m(x)
f(x|ψ)={θ;Ψ(θ)=ψ}f(x|θ)π(θ)dθ
m(x)=f(x|θ)π(θ)dθ
dans l'esprit de notre article paradoxal Savage-Dickey .

Robert Bassett et Julio Deride ont publié un article en 2016 sur la position des MAP dans la théorie de la décision bayésienne.

«… Nous fournissons un contre-exemple à la notion communément admise d'estimateurs MAP comme limite d'estimateurs Bayes ayant une perte de 0-1.

Les auteurs mentionnent mon livre The Bayesian Choice mentionnant cette propriété sans plus de précautions et je suis tout à fait d'accord pour être insouciant à cet égard! La difficulté tient à ce que la limite des maximiseurs n'est pas nécessairement la maximisation de la limite. L'article comprend un exemple à cet effet, avec un a priori comme ci-dessus, associé à une distribution d'échantillonnage qui ne dépend pas du paramètre. Les conditions suffisantes qui y sont proposées sont que la densité postérieure est presque sûrement correcte ou quasi-concave.

Voir également une caractérisation alternative des estimateurs MAP par Burger et Lucka comme estimateurs bayésiens appropriés sous un autre type de fonction de perte , quoique plutôt artificielle. Les auteurs de cet article arXived partent d'une distance basée sur le prieur; appelée distance de Bregman, qui peut être la distance quadratique ou entropique en fonction de l'avant. Définition d'une fonction de perte qui est un mélange de cette distance de Bregman et de la distance quadratique

||K(u^u)||2+2Dπ(u^,u)
produit le MAP comme estimateur de Bayes. On peut encore s'interroger sur la mesure dominante mais la fonction de perte et l'estimateur qui en résulte dépendent clairement du choix de la mesure dominante… (La perte dépend de la précédente mais ce n'est pas un inconvénient en soi.)
Xi'an
la source
1

Je donnerai le résumé du texte mentionné à propos de ce problème dans le chapitre 5, Statistiques bayésiennes, Apprentissage automatique: une perspective probabiliste - par Murphy .

Disons que nous avons observé certaines données , et nous voulons commenter la distribution postérieure des paramètres . Or, l'estimation ponctuelle du mode de cette distribution postérieure, largement connue sous le nom de MAP, présente certains inconvénients.Xp(θ|X)

Contrairement à la moyenne ou à la médiane, il s'agit d'un point «atypique», en ce sens qu'il ne prend pas en compte tous les autres points lors de son estimation. Dans le cas de l'estimation de la moyenne / médiane, nous prenons en compte tous les autres points.

Ainsi, comme prévu, dans les distributions postérieures très asymétriques, le MAP (et, par extension, le MLE) ne représente pas vraiment le réellement postérieur.

Alors, comment résumer un postérieur en utilisant une estimation ponctuelle telle que Moyenne / Médiane / Mode?

C'est là que les gens utilisent la théorie de la décision - essentiellement une fonction de perte qui est la perte que l'on subit si la vérité est et est notre estimation. Nous pouvons choisir une variété de fonctions de perte et notre objectif ici est de minimiser la valeur attendue de la fonction de perte.L(θ,θ^)θθ^

Si la fonction de perte est définie comme , une fonction d'indicateur pour tous les moments où nous NE POUVONS PAS estimer la vérité, puis minimiser la valeur attendue de la fonction de perte wrt est égal à maximiser cette fonction wrt . À partir de cela, il est intuitif de deviner que le mode postérieur minimise la valeur attendue de la fonction de perte. Les détails de ce calcul peuvent être vus dans la réponse ci-dessus .I ( θθ | x ) θ I ( θ = θ | x ) θL(θ,θ^)I(θ^θ|x)θI(θ^=θ|x)θ

Honeybadger
la source