Les prieurs bayésiens deviennent-ils hors de propos avec un échantillon de grande taille?

26

Lors de l'inférence bayésienne, nous opérons en maximisant notre fonction de vraisemblance en combinaison avec les a priori que nous avons sur les paramètres. Parce que la log-vraisemblance est plus pratique, nous maximisons efficacement utilisant un MCMC ou autrement ce qui génère les distributions postérieures (en utilisant un pdf pour probabilité de chaque paramètre et probabilité de chaque point de données). $\sum \ln (\text{prior}) + \sum \ln (\text{likelihood})$

Si nous avons beaucoup de données, la probabilité de cela va submerger toute information fournie par le prieur, par de simples mathématiques. En fin de compte, c'est bon et par conception; nous savons que le postérieur convergera vers la vraisemblance avec plus de données car il est censé le faire.

Pour les problèmes définis par des antérieurs conjugués, cela est même prouvable exactement.

Existe-t-il un moyen de décider quand les a priori n'ont pas d'importance pour une fonction de probabilité donnée et une certaine taille d'échantillon?

bayesian prior pixels
la source

3

Votre première phrase n'est pas correcte. L'inférence bayésienne et l'algorithme MCMC ne maximisent pas la probabilité.

niandra82

5

Connaissez-vous la vraisemblance marginale, les facteurs de Bayes, la distribution prédictive antérieure / postérieure, la vérification prédictive antérieure / postérieure? c'est le genre de choses que vous utiliseriez pour comparer des modèles dans un paradigme bayésien. Je pense que cette question se résume à savoir si oui ou non le facteur Bayes, entre des modèles qui ne diffèrent que par leur a priori, convergera vers 1 lorsque la taille de l'échantillon ira à l'infini. Vous pouvez également vouloir mettre de côté les a priori qui sont tronqués dans l'espace des paramètres impliqués par la vraisemblance, car cela pourrait potentiellement empêcher la cible de converger vers l'estimation de vraisemblance maximale.

Zachary Blumenfeld

@ZacharyBlumenfeld: cela pourrait être considéré comme une bonne réponse!

Xi'an

La forme corrigée "maximise-t-elle la règle de Bayes"? De plus, les modèles avec lesquels je travaille sont basés physiquement, donc les espaces de paramètres tronqués sont une nécessité pour le travail. (Je conviens également que vos commentaires sont probablement une réponse, pourriez-vous les étoffer @ZacharyBlumenfeld?)

pixels

37

Ce n'est pas si simple. Les informations contenues dans vos données dépassent les informations antérieures non seulement la taille de votre échantillon est grande, mais aussi lorsque vos données fournissent suffisamment d' informations pour submerger les informations antérieures. Les données antérieures non informatives sont facilement convaincues par les données, tandis que celles qui sont fortement informatives peuvent être plus résistantes. Dans les cas extrêmes, avec des priorités mal définies, vos données peuvent ne pas du tout être en mesure de les surmonter (par exemple, densité nulle sur une région).

Rappelons que selon le théorème de Bayes, nous utilisons deux sources d'information dans notre modèle statistique, les données hors données, les informations antérieures et les informations véhiculées par les données en fonction de vraisemblance :

posterior \propto prior \times likelihood

$\color{violet}{\text{posterior}} \propto \color{red}{\text{prior}} \times \color{lightblue}{\text{likelihood}}$

Lorsque nous utilisons des informations antérieures non informatives (ou des probabilités maximales), nous essayons d'introduire un minimum d'informations préalables possibles dans notre modèle. Avec des priorités informatives, nous apportons une quantité substantielle d'informations dans le modèle. Ainsi, les données et les données antérieures nous informent quelles valeurs des paramètres estimés sont les plus plausibles ou crédibles. Ils peuvent apporter des informations différentes et chacun d'eux peut l'emporter sur l'autre dans certains cas.

Permettez-moi d'illustrer cela avec un modèle bêta-binomial très basique (voir ici pour un exemple détaillé ). Avec un précédent "non informatif" , un échantillon assez petit peut suffire à le maîtriser. Sur les graphiques ci-dessous, vous pouvez voir les priors (courbe rouge), la vraisemblance (courbe bleue) et les postérieurs (courbe violette) du même modèle avec différentes tailles d'échantillon.

D'un autre côté, vous pouvez avoir des informations préalables proches de la valeur réelle, qui seraient également faciles, mais pas aussi facilement qu'avec une information hebdomadaire, convaincues par les données.

Le cas est très différent avec le préalable informatif, quand il est loin de ce que disent les données (en utilisant les mêmes données que dans le premier exemple). Dans ce cas, vous avez besoin d'un plus grand échantillon pour surmonter le précédent.

Il ne s'agit donc pas seulement de la taille de l'échantillon, mais aussi de vos données et de vos antécédents. Notez que c'est un comportement souhaité , car lorsque vous utilisez des informations antérieures, nous souhaitons potentiellement inclure des informations hors données dans notre modèle et cela serait impossible si de grands échantillons rejetaient toujours les informations antérieures.

En raison de relations compliquées a posteriori-vraisemblance-a priori, il est toujours bon de regarder la distribution postérieure et de faire quelques vérifications prédictives postérieures (Gelman, Meng et Stern, 1996; Gelman et Hill, 2006; Gelman et al, 2004). De plus, comme décrit par Spiegelhalter (2004), vous pouvez utiliser différents priors, par exemple «pessimistes» qui expriment des doutes sur les effets importants, ou «enthousiastes» qui sont optimistes quant aux effets estimés. La comparaison du comportement des différents prieurs avec vos données peut aider à évaluer de manière informelle dans quelle mesure le postérieur a été influencé par le précédent.

Spiegelhalter, DJ (2004). Intégrer les idées bayésiennes dans l'évaluation des soins de santé. Science statistique, 156-174.

Gelman, A., Carlin, JB, Stern, HS et Rubin, DB (2004). Analyse des données bayésiennes. Chapman & Hall / CRC.

Gelman, A. et Hill, J. (2006). Analyse des données à l'aide de modèles de régression et multiniveaux / hiérarchiques. La presse de l'Universite de Cambridge.

Gelman, A., Meng, XL et Stern, H. (1996). Évaluation prédictive postérieure de l'aptitude du modèle via les écarts réalisés. Statistica sinica, 733-760.

Tim
la source

2

Belle contribution, merci Tim. Je voudrais ajouter que le contraste que vous présentez si bien ici peut se présenter même dans un seul et même modèle par rapport aux différents paramètres de ce modèle. Il peut y avoir certains paramètres sur lesquels les données offrent des informations négligeables, auquel cas les anciens peuvent servir de manière critique pour fournir des restrictions d'identification .

David C.Norris

Dans la première matrice de graphiques 3x3, les graphiques sont-ils corrects? Le postérieur est complètement plat jusqu'à n = 25 inclusivement?

MichiganWater

1

@MichiganWater chaque collection de 9 parcelles utilise la même échelle pour l'axe y afin que les plus grandes valeurs ne sortent pas de l'écran. Ils sont donc plats par rapport au cas où vous avez plus de données. Si vous avez "zoomé", ils ne seront pas plats.

Tim

11

Lors de l'inférence bayésienne, nous opérons en maximisant notre fonction de vraisemblance en combinaison avec les a priori que nous avons sur les paramètres.

Ce n'est en fait pas ce que la plupart des praticiens considèrent comme une inférence bayésienne. Il est possible d'estimer les paramètres de cette façon, mais je n'appellerais pas cela une inférence bayésienne.

L' inférence bayésienne utilise des distributions postérieures pour calculer les probabilités postérieures (ou ratios de probabilités) pour des hypothèses concurrentes.

Les distributions postérieures peuvent être estimées empiriquement par des techniques de Monte Carlo ou Monte Carlo à Chaîne de Markov (MCMC).

Mis à part ces distinctions, la question

Les prieurs bayésiens deviennent-ils hors de propos avec un échantillon de grande taille?

dépend toujours du contexte du problème et de ce qui vous intéresse.

Si ce qui vous importe, c'est la prédiction donnée à un échantillon déjà très important, alors la réponse est généralement oui, les priors sont asymptotiquement non pertinents *. Cependant, si vous vous souciez de la sélection des modèles et des tests d'hypothèse bayésienne, alors la réponse est non, les priors importent beaucoup et leur effet ne se détériorera pas avec la taille de l'échantillon.

* Ici, je suppose que les priors ne sont pas tronqués / censurés au-delà de l'espace des paramètres impliqué par la vraisemblance, et qu'ils ne sont pas mal spécifiés au point de provoquer des problèmes de convergence avec une densité proche de zéro dans les régions importantes. Mon argument est également asymptotique, qui vient avec toutes les mises en garde régulières.

Densités prédictives

$\mathbf{d}_N = (d_1, d_2,...,d_N)$ $d_i$ $f(\mathbf{d}_N\mid \theta)$ $\theta$

$\pi_0 (\theta \mid \lambda_1)$ $\pi_0 (\theta \mid \lambda_2)$ $\lambda_1 \neq \lambda_2$

π_{N} (θ ∣ {ré}_{N}, λ_{j}) \propto F ({ré}_{N} ∣ θ) π_{0} (θ ∣ λ_{j}) F o r j = 1, 2

$\pi_N (\theta \mid \mathbf{d}_N, \lambda_j) \propto f(\mathbf{d}_N\mid \theta)\pi_0 ( \theta \mid \lambda_j)\;\;\;\;\;\mathrm{for}\;\;j=1,2$

$\theta^*$ $\theta^{j}_N \sim \pi_N(\theta\mid \mathbf{d}_N, \lambda_j)$ $\hat \theta_N = \max_\theta\{ f(\mathbf{d}_N\mid \theta) \}$ $\theta^{1}_N$ $\theta^{2}_N$ $\hat \theta_N$ $\theta^*$ $\varepsilon >0$

\begin{aligned} lim_{N \to \infty} P r (| θ_{N}^{j} - θ^{*} | \geq ε) & = 0 \forall j \in {1, 2} \\ lim_{N \to \infty} P r (| {\hat{θ}}_{N} - θ^{*} | \geq ε) & = 0 \end{aligned}

$\begin{align} \lim_{N \rightarrow \infty} Pr(|\theta^j_N - \theta^*| \ge \varepsilon) &= 0\;\;\;\forall j \in \{1,2\} \\ \lim_{N \rightarrow \infty} Pr(|\hat \theta_N - \theta^*| \ge \varepsilon) &= 0 \end{align}$

$\theta^j_N = \max_\theta \{\pi_N (\theta \mid \mathbf{d}_N, \lambda_j)\}$

$f(\tilde d \mid \mathbf{d}_N, \lambda_j) = \int_{\Theta} f(\tilde d \mid \theta,\lambda_j,\mathbf{d}_N)\pi_N (\theta \mid \lambda_j,\mathbf{d}_N)d\theta$ $f(\tilde d \mid \mathbf{d}_N, \theta^j_N)$ $f(\tilde d\mid \mathbf{d}_N, \theta^*)$

Sélection du modèle et test d'hypothèse

Si l'on s'intéresse à la sélection des modèles bayésiens et aux tests d'hypothèses, il faut savoir que l'effet de l'a priori ne disparaît pas asymptotiquement.

$f(\mathbf{d}_N \mid \mathrm{model})$

K_{N} = \frac{F ({ré}_{N} ∣ {m o ré e l}_{1})}{F ({ré}_{N} ∣ {m o ré e l}_{2})}

$K_N = \frac{f(\mathbf{d}_N \mid \mathrm{model}_1)}{f(\mathbf{d}_N \mid \mathrm{model}_2)}$

P r ({m o ré e l}_{j} ∣ {ré}_{N}) = \frac{F ({ré}_{N} ∣ {m o ré e l}_{j}) P r ({m o ré e l}_{j})}{\sum_{l = 1}^{L} F ({ré}_{N} ∣ {m o ré e l}_{l}) P r ({m o ré e l}_{l})}

$Pr(\mathrm{model}_j \mid \mathbf{d}_N) = \frac{f(\mathbf{d}_N \mid \mathrm{model}_j)Pr(\mathrm{model}_j)}{\sum_{l=1}^L f(\mathbf{d}_N \mid \mathrm{model}_l)Pr(\mathrm{model}_l)}$

F ({ré}_{N} ∣ λ_{j}) = \int_{Θ} F ({ré}_{N} ∣ θ, λ_{j}) π_{0} (θ ∣ λ_{j}) ré θ

$f(\mathbf{d}_N \mid \lambda_j) = \int_{\Theta} f(\mathbf{d}_N \mid \theta, \lambda_j)\pi_0(\theta\mid \lambda_j)d\theta$

F ({ré}_{N} ∣ λ_{j}) = \prod_{n = 0}^{N - 1} F ({ré}_{n + 1} ∣ {ré}_{n}, λ_{j})

$f(\mathbf{d}_N \mid \lambda_j) = \prod_{n=0}^{N-1} f(d_{n+1} \mid \mathbf{d}_n , \lambda_j)$ D'en haut, nous savons que

f (d_{N + 1} ∣ d_{N}, λ_{j})

$f(d_{N+1} \mid \mathbf{d}_N , \lambda_j)$ converge vers

f (d_{N + 1} ∣ d_{N}, θ^{*})

$f(d_{N+1} \mid \mathbf{d}_N , \theta^*)$ , mais il n'est généralement pas vrai que $f(\mathbf{d}_N \mid \lambda_1)$ converge vers $f(\mathbf{d}_N \mid \theta^*)$ , ni ne converge vers $f(\mathbf{d}_N \mid \lambda_2)$ . Cela devrait être évident compte tenu de la notation du produit ci-dessus. Alors que les derniers termes du produit seront de plus en plus similaires, les termes initiaux seront différents, de ce fait, le facteur Bayes

\frac{F ({ré}_{N} ∣ λ_{1})}{F ({ré}_{N} ∣ λ_{2})} ⧸ \overset{p}{\to} 1

$\frac{f(\mathbf{d}_N \mid \lambda_1)}{ f(\mathbf{d}_N \mid \lambda_2)} \not\stackrel{p}{\rightarrow} 1$ C'est un problème si nous voulions calculer un facteur de Bayes pour un modèle alternatif avec une probabilité différente et antérieure. Par exemple, considérons la probabilité marginale

h (d_{N} ∣ M) = \int_{Θ} h (d_{N} ∣ θ, M) π_{0} (θ ∣ M) d θ

$h(\mathbf{d}_N\mid M) = \int_{\Theta} h(\mathbf{d}_N\mid \theta, M)\pi_0(\theta\mid M) d\theta$ ; puis

\frac{F ({ré}_{N} ∣ λ_{1})}{h ({ré}_{N} ∣ M)} \neq \frac{F ({ré}_{N} ∣ λ_{2})}{h ({ré}_{N} ∣ M)}

$\frac{f(\mathbf{d}_N \mid \lambda_1)}{ h(\mathbf{d}_N\mid M)} \neq \frac{f(\mathbf{d}_N \mid \lambda_2)}{ h(\mathbf{d}_N\mid M)}$ asymptotiquement ou autrement. La même chose peut être montrée pour les probabilités postérieures. Dans ce contexte, le choix de la priorité a un effet significatif sur les résultats de l'inférence quelle que soit la taille de l'échantillon.

Zachary Blumenfeld
la source

5

Another issue to keep in mind is you can have a lot of data, but still have very little information about certain parameters in your model. In such cases, even a mildly informative prior can be extremely helpful when performing inference.

As a silly example, suppose you were comparing means of two groups and you had 1,000,000 samples of group 1 and 10 samples of group 2. Then clearly having an informative prior about group 2 can improve inference, even though you've collected over a million samples.

And while that example may be trivial, it starts to lead some very important implications. If we want to understand some complex phenomena, the smart thing to do is collect a lot of information regarding the parts we don't understand and less information about the parts we do understand. If we collect a lot of data in such a manner, throwing out the prior because we have a lot of data is a really bad choice; we've just set back our analysis because we didn't waste time collecting data on things we already know!

Cliff AB
la source

Les prieurs bayésiens deviennent-ils hors de propos avec un échantillon de grande taille?

Réponses:

Densités prédictives

Sélection du modèle et test d'hypothèse