Étapes pour comprendre une distribution postérieure alors qu'elle pourrait être assez simple pour avoir une forme analytique?

12

Cela a également été demandé à Computational Science.

J'essaie de calculer une estimation bayésienne de certains coefficients pour une autorégression, avec 11 échantillons de données:

Ouije=μ+αOuije-1+ϵje
ϵje est gaussien avec moyenne 0 et varianceσe2 La distribution a priori sur le vecteur(μ,α)t est gaussienne avec moyenne(0,0) et une matrice de covariance diagonale avec des entrées diagonales égales àσp2 .

Sur la base de la formule d'autorégression, cela signifie que la distribution des points de données (les Ouije ) est normale avec une moyenne μ+αOuije-1 et varianceσe2 . Ainsi, la densité de tous les points de données(Oui) conjointement (en supposant l'indépendance, ce qui est bien pour le programme que j'écris), serait:

p(Oui|(μ,α)t)=je=21112πσe2exp-(Ouije-μ-αOuije-1)22σe2.

Selon le théorème de Bayes, nous pouvons prendre le produit de la densité ci-dessus avec la densité antérieure, puis nous aurons juste besoin de la constante de normalisation. Mon intuition est que cela devrait fonctionner pour être une distribution gaussienne, donc nous pouvons nous soucier de la constante de normalisation à la fin plutôt que de la calculer explicitement avec des intégrales sur et α .μα

C'est la partie avec laquelle j'ai du mal. Comment calculer la multiplication de la densité antérieure (qui est multivariée) et de ce produit de densités de données univariées? Le postérieur doit être purement une densité de et α , mais je ne vois pas comment vous obtiendrez cela d'un tel produit.μα

Tous les pointeurs sont vraiment utiles, même si vous me pointez dans la bonne direction et que je dois ensuite faire l'algèbre en désordre (c'est ce que j'ai déjà tenté plusieurs fois).

Comme point de départ, voici la forme du numérateur de la règle de Bayes:

1(2πσe2)52πσp2exp[12σe2je=211(Ouije-μ-αOuije-1)2-μ22σp2-α22σp2].

La question est de savoir comment cela se réduit à une densité gaussienne de .(μ,α)t

Ajoutée

En fin de compte, cela se résume au problème général suivant. Si l'on vous donne une expression quadratique telle que Comment mettre cela en une forme quadratique ( μ - μ , α - α ) Q ( μ - μ ,

Aμ2+Bμα+Cα2+Jμ+Kα+L
pour une matrice 2x2 Q(μμ^,αα^)Q(μμ^,αα^)tQ? Il est assez simple dans les cas faciles, mais quel processus utilisez-vous pour obtenir les estimations et α ?μ^α^

Remarque, j'ai essayé l'option simple d'étendre la formule matricielle, puis d'essayer d'égaliser les coefficients comme ci-dessus. Le problème, dans mon cas, est que la constante est nulle, puis je finis par obtenir trois équations dans deux inconnues, il est donc sous-déterminé de ne faire correspondre que les coefficients (même si je suppose une matrice de forme quadratique symétrique).L

ely
la source
Ma réponse à [cette question] ( stats.stackexchange.com/questions/22852/… ) peut être utile. Notez que vous avez besoin d'un préalable pour votre première observation - les itérations s'arrêtent là.
probabilityislogic
Je ne vois pas pourquoi j'en ai besoin dans ce cas. Je suis censé traiter les intervalles de temps comme s'ils étaient indépendants conditionnellement compte tenu de l'observation. Notez que le produit de la densité du joint est juste de . Je ne pense pas que je suis censé obtenir une formule mise à jour séquentiellement ici, juste une seule formule pour le p postérieur ( ( μ , α ) ti=2..11 . p((μ,α)t|Y)
ely
Le "multivarié" dans les antérieurs n'est pas en contradiction avec le "univarié" dans les densités de données, car ce sont des densités dans les y i . p(α,μ)yi
Xi'an

Réponses:

7

L'indice qui était dans ma réponse à la réponse précédente est de voir comment j'ai intégré les paramètres - parce que vous ferez exactement les mêmes intégrales ici. Votre question suppose que les paramètres de variance connus, ce sont donc des constantes. Il suffit de regarder ledépendance α , μ du numérateur. Pour voir cela, notons que nous pouvons écrire:α,μ

p(μ,α|Y)=p(μ,α)p(Y|μ,α)p(μ,α)p(Y|μ,α)dμdα
=1(2πσe2)52πσp2exp[12σe2i=211(YiμαYi1)2μ22σp2α22σp2]1(2πσe2)52πσp2exp[12σe2i=211(YiμαYi1)2μ22σp2α22σp2]dμdα

Remarquez comment nous pouvons tirer le premier facteur de l'intégrale double sur le dénominateur, et il annule avec le numérateur. On peut aussi extraire la somme des carrésexp[-11(2πσe2)52πσp2et il sera également annulé. L'intégrale qui nous reste est maintenant (après avoir élargi le terme au carré):exp[12σe2i=211Yi2]

=exp[10μ2+α2i=110Yi22μi=211Yi2αi=211YiYi1+2μαi=110Yi2σe2μ22σp2α22σp2]exp[10μ2+α2i=110Yi22μi=211Yi2αi=211YiYi1+2μαi=110Yi2σe2μ22σp2α22σp2]dμdα

Maintenant, nous pouvons utiliser un résultat général du pdf normal.

Cela découle du fait de compléter le carré sur-az2+bzet de noter quecne dépend pas dez. Notez que l'intégrale interne surμest de cette forme aveca=10

exp(-unez2+bz-c)z=πuneexp(b24une-c)
-unez2+bzczμ etb= 11 i = 2 Yi-α 10 i = 1 Yiune=dix2σe2+12σp2 etc=b=je=211Ouije-αje=1dixOuijeσe2 . Après avoir fait cette intégrale, vous constaterez que l'intégrale restante surαest également de cette forme, vous pouvez donc réutiliser cette formule, avec un différenta,b,c. Ensuite, vous devriez pouvoir écrire votre postérieur sous la forme1c=α2je=1dixOuije2-2αje=211OuijeOuije-12σe2+α22σp2αune,b,cVest un2×2matrice12π|V|12exp[-12(μ-μ^,α-α^)V-1(μ-μ^,α-α^)T]V2×2

Faites-moi savoir si vous avez besoin de plus d'indices.

mise à jour

(note: formule correcte, devrait être de au lieu de μ 2 )dixμ2μ2

5L5μ^,α^,Q11,Q12=Q21,Q22(μ-μ^,α-α^)Q(μ-μ^,α-α^)t

Q11(μμ^)2+Q22(αα^)2+2Q12(μμ^)(αα^)
=Q11μ2+2Q21μα+Q22α2(2Q11μ^+2Q12α^)μ(2Q22α^+2Q12μ^)α+
+Q11μ^2+Q22α^2+2Q12μ^α^

A=Q11,B=2Q12,C=Q22α^,μ^Q

(2ABB2C)(μ^α^)=(JK)

Ainsi, les estimations sont données par:

(μ^α^)=(2ABB2C)1(JK)=14ACB2(BK2JCBJ2KA)

4ACB2

A=102σe2+12σp2B=i=110Yiσe2C=i=110Yi22σe2+12σp2J=i=211Yiσe2K=i=211YiYi1σe2

Xi=Yi1i=2,,11σp2μ,αα^=i=211(YiY¯)(XiX¯)i=211(XiX¯)2μ^=Oui¯-α^X¯Oui¯=1dixje=211OuijeX¯=1dixje=211Xje=1dixje=1dixOuije(0,0)

probabilitéislogique
la source
Ce n'est pas particulièrement utile car j'ai mentionné spécifiquement que ce n'est pas le dénominateur qui importe ici. Le dénominateur n'est qu'une constante de normalisation, ce qui sera évident une fois que vous aurez réduit le numérateur à une forme gaussienne. Donc, les astuces pour évaluer les intégrales dans le dénominateur sont mathématiquement vraiment cool, mais tout simplement pas nécessaires pour mon application. Le seul problème avec lequel j'ai besoin de résolution est la manipulation du numérateur.
le
(α,μ)
@ems - en calculant la constante de normalisation, vous construirez la forme quadratique requise. il contiendra les termes nécessaires pour compléter le carré
probabilitéislogique
Je ne comprends pas comment cela vous donne la forme quadratique. J'ai élaboré les deux intégrales du dénominateur en utilisant l'identité intégrale gaussienne que vous avez publiée. En fin de compte, je reçois juste une constante énorme et désordonnée. Il ne semble pas y avoir de moyen clair de prendre cette constante et de la transformer en quelque chose de fois déterminant pour la puissance 1/2, etc. Sans oublier que je ne vois pas comment cela explique comment calculer la nouvelle ' vecteur moyen (μ^,α^)t
Merci énormément pour l'ajout détaillé. Je faisais des erreurs stupides en essayant de faire l'algèbre pour comprendre la forme quadratique. Vos commentaires sur la relation avec l'estimateur OLS sont également très intéressants et appréciés. Je pense que cela accélérera mon code parce que je serai en mesure de tirer des échantillons d'une forme analytique qui a des méthodes optimisées intégrées. Mon plan initial était d'utiliser Metropolis-Hastings pour échantillonner, mais c'était très lent. Merci!
le