Le postérieur bayésien doit-il être une distribution appropriée?

21

Je sais que les a priori n'ont pas besoin d'être appropriés et que la fonction de vraisemblance ne s'intègre pas non plus à 1. Mais le postérieur doit-il être une distribution appropriée? Quelles sont les implications si c'est / n'est pas?

distributions bayesian posterior ATJ
la source

15

(Il est quelque peu surprenant de lire les réponses précédentes, qui mettent l'accent sur l'irrégularité potentielle du postérieur lorsque le prieur est approprié, car, pour autant que je sache, la question est de savoir si le postérieur doit être correct ( c.-à-d. intégrable à un) pour être un postérieur approprié (c.-à-d. acceptable pour l'inférence bayésienne).)

Dans les statistiques bayésiennes, la distribution postérieure doit être une distribution de probabilité, à partir de laquelle on peut dériver des moments comme la moyenne postérieure et des énoncés de probabilité comme la couverture d'un crédible région, . Si le postérieur ne peut pas être normalisé en une densité de probabilité et l'inférence bayésienne ne peut tout simplement pas être effectuée. Le postérieur n'existe tout simplement pas dans de tels cas. $\mathbb{E}^\pi[h(\theta)|x]$ $\mathbb{P}(\pi(\theta|x)>\kappa|x)$

\int f (x | θ) π (θ) d θ = + \infty, (1)

$\int f(x|\theta)\,\pi(\theta)\,\text{d}\theta = +\infty\,,\qquad (1)$

π (θ | x)

$\pi(\theta|x)$

En fait, (1) doit être valable pour tous les $x$ dans l'espace d'échantillonnage et pas seulement pour les observés , sinon, la sélection de l'a priori dépendrait des données . Cela signifie que des a priori comme le précédent de Haldane, , sur la probabilité d'un binôme ou d'une variable binomiale négative ne peuvent pas être utilisés, puisque le postérieur n'est pas défini pour . $x$ $\pi(p)\propto \{1/p(1-p)\}$ $p$ $X$ $x=0$

Je connais une exception quand on peut considérer les "postérieurs impropres": on en trouve dans "The Art of Data Augmentation" de David van Dyk et Xiao-Li Meng. La mesure incorrecte est sur un soi-disant paramètre de travail tel que l'observation est produite par le marginal d'une distribution augmentée et van Dyk et Meng ont mis un mauvais sur ce paramètre de travail afin d'accélérer la simulation de (qui reste bien définie comme densité de probabilité) par MCMC. $\alpha$

f (x | θ) = \int_{T (x^{aug}) = x} f (x^{aug} | θ, α) d x^{aug}

$f(x|\theta)=\int_{T(x^\text{aug})=x} f(x^\text{aug}|\theta,\alpha)\,\text{d}x^\text{aug}$

p (α)

$p(\alpha)$

α

$\alpha$

π (θ | x)

$\pi(\theta|x)$

Dans une autre perspective, quelque peu liée à la réponse des eretmochelys , à savoir une perspective de la théorie de la décision bayésienne , un cadre où (1) se produit pourrait toujours être acceptable s'il conduisait à des décisions optimales. A savoir, si est une fonction de perte évaluant l'impact de l'utilisation de la décision , une décision optimale bayésienne sous le précédent est donnée par et tout ce qui compte c'est que cette intégrale ne soit pas partout (en ) infini. La validité de (1) est secondaire pour la dérivation de $L(\delta,\theta)\ge 0$ $\delta$ $\pi$

δ^{⋆} (x) = \arg min_{δ} \int L (δ, θ) f (x | θ) π (θ) d θ

$\delta^\star(x)=\arg\min_\delta \int L(\delta,\theta) f(x|\theta)\,\pi(\theta)\,\text{d}\theta$

δ

$\delta$

δ^{⋆} (x)

$\delta^\star(x)$ , même si des propriétés comme l'admissibilité ne sont garanties que lorsque (1) est respecté.

Xi'an
la source

19

Il n'est pas nécessaire que la distribution postérieure soit correcte, même si l'a priori l'est. Par exemple, supposons que ait un Gamma a priori de forme 0,25 (ce qui est approprié), et nous modélisons notre donnée comme tirée d'une distribution gaussienne avec un zéro moyen et une variance . Supposons que soit observé comme étant nul. La probabilité est alors proportionnelle à , ce qui rend la distribution postérieure de impropre, car elle est proportionnelle à . Ce problème se pose en raison de la nature farfelue des variables continues. $v$ $x$ $v$ $x$ $p(x|v)$ $v^{-0.5}$ $v$ $v^{-1.25} e^{-v}$

Tom Minka
la source

Un bel exemple, Tom!

Zen

+1, mais pourriez-vous étendre la réponse à la dernière phrase du PO? Ce postérieur délirant est-il significatif (pouvez-vous faire le genre de choses que vous feriez habituellement avec un postérieur), ou est-ce plus analogue à obtenir un NaN ou un Inf à partir de certains calculs? Est-ce un signe que quelque chose ne va pas avec votre modèle?

Wayne

5

Il n'y a rien de mal avec le modèle. Ce postérieur est significatif en ce sens que si vous recevez une autre observation, vous pouvez la multiplier et éventuellement revenir à un postérieur approprié. Ce n'est donc pas comme un NaN, sur lequel toutes les autres opérations sont NaN.

Tom Minka

8

Bien que ce soit probablement trop tard pour avoir de l'importance, je ne pense pas que l'utilisation de tels "contre-exemples" aide les débutants: le problème se pose car vous utilisez une version spécifique de la densité gaussienne à

, quand elle peut être arbitrairement définie sur cet ensemble de mesure zéro. Et donc rendre le postérieur propre ou incorrect selon la version choisie.

x = 0

$x=0$

Xi'an

Intéressant - si vous prenez le

général , le postérieur est un gaussien inverse généralisé avec des paramètres

. @ Xi'an - il serait bon de voir une autre façon de tirer un bon postérieur de cela.

x

$x$

- 0.25, 1, x^{2}

$-0.25,1,x^2$

probabilitéislogic

11

Définition de l'ensemble des nous avons

Bogus Data = {x : \int f (x ∣ θ) π (θ) d θ = \infty},

$\text{Bogus Data} = \left\{ x:\int f(x\mid \theta)\,\pi(\theta)\,d\theta = \infty \right\} \, ,$

La dernière intégrale sera égale à

si la mesure de Lebesgue des

est positive. Mais c'est impossible, car cette intégrale vous donne une probabilité (un vrai nombre entre

et

). Par conséquent, il s'ensuit que la mesure de Lebesgue des

est égale à

et, bien sûr, il s'ensuit également que

.

P r (X \in Bogus Data) = \int_{Bogus Data} \int f (x ∣ θ) π (θ) d θ d x = \int_{Bogus Data} \infty d x .

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right) = \int_\text{Bogus Data} \int f(x\mid \theta)\,\pi(\theta)\,d\theta\,dx = \int_\text{Bogus Data} \infty\,dx \, .$

\infty

$\infty$

Bogus Data

$\text{Bogus Data}$

0

$0$

1

$1$

Bogus Data

$\text{Bogus Data}$

0

$0$

P r (X \in Bogus Data) = 0

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right)=0$

En mots: la probabilité prédictive antérieure de ces valeurs d'échantillon qui rendent le postérieur impropre est égale à zéro.

Morale de l'histoire: méfiez-vous des ensembles nuls, ils peuvent mordre, aussi improbable soit-il.

PS Comme l'a souligné le professeur Robert dans les commentaires, ce raisonnement explose si le prieur est incorrect.

Zen
la source

4

Vous avez écrit : "Si nous pouvons commencer avec un bon avant et obtenir un postérieur incorrect, alors j'arrêterai l'inférence."

Tom Minka

2

Un peu ironique, il y avait un quantificateur implicite: si nous pouvons commencer avec un bon avant et obtenir un postérieur incorrect, pour chaque valeur d'échantillon possible, alors j'arrêterai l'inférence. ;-)

Zen

Au fait, un souvenir remarquable, Tom!

Zen

4

P r (X \in Bogus Data)

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right)$

(θ, x)

$(\theta,x)$

1

Vous avez raison. Le raisonnement dans la réponse ne fonctionne qu'avec des prieurs appropriés. Bon point. Je vais ajouter une note.

Zen

3

Toute "distribution" doit additionner (ou intégrer) à 1. Je peux penser à quelques exemples où l'on pourrait travailler avec des distributions non normalisées, mais je suis mal à l'aise d'appeler tout ce qui marginalise à autre chose que 1 une "distribution".

$x$ $d$

\begin{aligned} \hat{x} & = \arg max_{x} P_{X | D} (x | d) \\ = \arg max_{x} \frac{P_{D | X} (d | x) P_{X} (x)}{P_{D} (d)} \\ = \arg max_{x} P_{D | X} (d | x) P_{X} (x) \end{aligned}

$\begin{align} \hat{x} &= \arg \max_x P_{X|D}(x|d) \\ &= \arg \max_x \frac{P_{D|X}(d|x) P_X(x)}{P_D(d)} \\ &= \arg \max_x {P_{D|X}(d|x) P_X(x)} \end{align}$

$P_D$ $x$ $\hat{x}$ $P_{D|X}(d|x) P_X(x)$

eretmochelys
la source

@Zen voudriez-vous être plus explicite sur ce que vous pensez être faux (ou fondamentalement incomplet) à propos de cette réponse?

whuber

1

Une façon d'interpréter la question OP "le postérieur doit-il être une distribution appropriée?" est de se demander s'il est mathématiquement possible de commencer par un bon avant et de terminer par un postérieur incorrect. La réponse de Minka donne un exemple explicite dans lequel cela se produit. J'ai essayé de la compléter avec ma réponse et de souligner que cela ne peut se produire qu'à l'intérieur d'un ensemble de probabilités prédictives nulles.

Zen

1

@Zen Il me semble qu'une interprétation étroitement liée est "si le postérieur n'est pas correct, quelles informations puis-je en tirer?" Cette réponse acceptée semble fournir des conseils utiles et corrects liés à cette situation particulière (qui est clairement décrite). L'acceptation me semble être un signal que eretmochelys a frappé à la maison avec une supposition astucieuse sur les circonstances.

whuber

-2

$n$ $Beta(0,0)$

omidi
la source

3

Cette réponse est incorrecte. Voir ma réponse.

Tom Minka

Le postérieur bayésien doit-il être une distribution appropriée?

Réponses: