Un a priori pour un paramètre aura presque toujours une forme fonctionnelle spécifique (écrite en termes de densité, généralement). Disons que nous nous limitons à une famille particulière de distributions, auquel cas le choix de notre a priori se réduit au choix des paramètres de cette famille.
Par exemple, considérons un modèle normal Yi∼iidN(μ,σ2) . Pour simplifier, prenons aussi σ2 comme connu. Cette partie du modèle - le modèle des données - détermine la fonction de vraisemblance.
Pour compléter notre modèle bayésien, nous avons besoin ici d'un a priori pour μ .
Comme mentionné ci-dessus, nous pouvons généralement spécifier une famille de distribution pour notre a priori pour μ , puis nous n'avons qu'à choisir les paramètres de cette distribution (par exemple, souvent les informations antérieures peuvent être assez vagues - comme à peu près où nous voulons que la probabilité se concentre - plutôt que de forme fonctionnelle très spécifique, et nous pouvons avoir assez de liberté pour modéliser ce que nous voulons en choisissant les paramètres - disons pour correspondre à une moyenne et une variance antérieures).
S'il s'avère que le postérieur de μ appartient à la même famille que le précédent, alors ce prior est dit «conjugué».
(Ce qui fait qu'il est conjugué, c'est la façon dont il se combine avec la probabilité)
Donc dans ce cas, prenons un a priori gaussien pour μ (disons μ ∼ N( θ , τ2) ). Si nous faisons cela, nous voyons que le postérieur de μ est également gaussien. Par conséquent, le prieur gaussien était un prieur conjugué pour notre modèle ci-dessus.
C'est tout ce qu'il y a vraiment - si le postérieur est de la même famille que le prieur, c'est un prieur conjugué.
Dans les cas simples, vous pouvez identifier un conjugué avant en inspectant la probabilité. Par exemple, considérons une vraisemblance binomiale; en laissant tomber les constantes, cela ressemble à une densité bêta en ; et en raison de la façon dont les puissances de p et ( 1 - p ) se combinent, il se multipliera par une bêta avant de donner également un produit des puissances de p et ( 1 - p ) ... afin que nous puissions voir immédiatement de la probabilité que la bêta sera un conjugué a priori pour p dans la vraisemblance binomiale.pp( 1 - p )p( 1 - p )p
Dans le cas gaussien, il est plus facile de voir que cela se produira en considérant les log-densités et la log-vraisemblance; la log-vraisemblance sera quadratique en et la somme de deux quadratiques est quadratique, donc une log-vraisemblance quadratique antérieure + quadratique log donne une quadratique postérieure (chacun des coefficients du terme d'ordre le plus élevé sera bien sûr négatif).μ
I like using the notion of a "kernel" of a distribution. This is where you only leave in the parts that depend on the parameter. A few simple examples.
Beta kernelp(θ|a,b)=K−1×θa(1−θ)b
Where K=∫θa(1−θ)bdθ=Beta(a+1,b+1)
When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data
For some constantQ and some function f(μ) . If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood.
If we take the normal likelihood with unit variance, the above looks like
p(D|μ)=∏i=1np(xi|μ)=∏i=1n12π−−√exp(−(xi−μ)22)=[∏i=1n12π−−√]×∏i=1nexp(−(xi−μ)22)=(2π)−n2×exp(−∑i=1n(xi−μ)22)=(2π)−n2×exp(−∑i=1nx2i−2xiμ+μ22)=(2π)−n2×exp(−∑i=1nx2i2)×exp(μ∑i=1nxi−μ2n2)=Q×exp(aμ2+bμ)
wherea=−n2 and b=∑ni=1xi and Q=(2π)−n2×exp(−∑ni=1x2i2)
This likelihood function has the same kernel as the normal distribution forμ , so a conjugate prior for this likelihood is also the normal distribution.
p(μ|a0,b0)=K−10exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)∝K−10exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K−10×Q×exp([a+a0]μ2+[b+b0]μ)∝exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.
In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.
la source
For a given distribution familyDlik of the likelihood (e.g. Bernoulli),
if the prior is of the same distribution familyDpri as the posterior (e.g. Beta),
thenDpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.
Note:p(θ|x)posterior∼p(x|θ)likelihood⋅p(θ)prior
la source