Dans l'inférence bayésienne, pourquoi certains termes sont-ils supprimés de la prédiction postérieure?

12

Dans l'analyse bayésienne conjuguée de Kevin Murphy de la distribution gaussienne , il écrit que la distribution prédictive postérieure est

p(xD)=p(xθ)p(θD)dθ

où est les données sur lesquelles le modèle est ajusté et sont des données invisibles. Ce que je ne comprends pas, c'est pourquoi la dépendance à l'égard de disparaît au premier terme de l'intégrale. En utilisant des règles de probabilité de base, je m'attendais à:DxD

p(a)=p(ac)p(c)dcp(ab)=p(ac,b)p(cb)dcp(xD)=p(xθ,D)p(θD)dθ

Question: Pourquoi la dépendance à en terme disparaît-elle?D


Pour ce que ça vaut, j'ai vu ce genre de formulation (suppression de variables dans les conditions) à d'autres endroits. Par exemple, dans Ryan Adam's Bayesian Online Changepoint Detection , il écrit la prédiction postérieure comme

p(xt+1rt)=p(xt+1θ)p(θrt,xt)dθ

où encore, puisque , je me serais attenduD={xt,rt}

p(xt+1xt,rt)=p(xt+1θ,xt,rt)p(θrt,xt)dθ

gwg
la source

Réponses:

13

Ceci est basé sur l'hypothèse que est conditionnellement indépendant de , étant donné . C'est une hypothèse raisonnable dans de nombreux cas, car tout ce qu'elle dit, c'est que les données d'apprentissage et de test ( et , respectivement) sont générées indépendamment à partir du même ensemble de paramètres inconnus . Compte tenu de cette hypothèse d'indépendance, , et donc le sort de la forme plus générale que vous attendiez.xDθDxθp(x|θ,D)=p(x|θ)D

Dans votre deuxième exemple, il semble qu'une hypothèse d'indépendance similaire soit appliquée, mais maintenant (explicitement) dans le temps. Ces hypothèses peuvent être explicitement énoncées ailleurs dans le texte, ou elles peuvent être implicitement claires pour quiconque connaît suffisamment le contexte du problème (bien que cela ne signifie pas nécessairement que dans vos exemples particuliers - que je ne connais pas - les auteurs ont eu raison de supposer cette familiarité).

Ruben van Bergen
la source
9

C'est parce que est supposé être indépendant de étant donné . En d'autres termes, toutes les données sont supposées être iid à partir d'une distribution normale avec des paramètres . Une fois que est pris en compte en utilisant les informations de , il n'y a plus d'informations que nous donne sur un nouveau point de données . Donc .xDθθθDDxp(x|θ,D)=p(x|θ)

JP Trawinski
la source