Probabilité gaussienne + quel a priori = Marginal gaussien?

8

Étant donné une probabilité gaussienne pour un échantillon comme avec étant l'espace des paramètres et , paramétrisations arbitraires du vecteur moyen et de la matrice de covariance.y

p(y|θ)=N(y;μ(θ),Σ(θ))
Θμ(θ)Σ(θ)

Est-il possible de spécifier une densité antérieure et un paramétrage du vecteur moyen et de la matrice de covariance tels que la vraisemblance marginale est une vraisemblance gaussienne?p(θ)μ(θ)Σ(θ)

p(y)=θΘN(y;μ(θ),Σ(θ))p(θ)dθ

J'imagine qu'en excluant la solution triviale que la covariance est connue, c'est-à-dire , où est une matrice de covariance fixe arbitraire, ce n'est pas possible.Σ(θ)=ΣΣ

Pour le cas particulier et , c'est-à-dire que est unidimensionnel, et , où dénote la densité uniforme que je peux lui montrer: μ(σ2)=μΣ(σ2)=σ2yp(σ2)=U(σ2;a,b)U(σ2;a,b)

p(y)=0N(y;μ,σ2)U(σ2;a,b)dσ2=1baabN(y;μ,σ2)not a Gaussian density

La réponse acceptée contient une preuve formelle ou informelle ou des indications.

Julian Karls
la source

Réponses:

2

Votre conjecture semble être vraie: seule une variance constante peut conduire à une marge normale. Ma preuve se limite au cas où l'espérance est connue et peut donc être supposée nulle. Pour le cas général, des arguments plus sophistiqués de l'analyse fonctionnelle semblent nécessaires.μ

Notez que la question porte sur le mélange continu de normales ainsi que sur Bayes. La déclaration a prouvé ici qu'un mélange d'échelle (continue) de normales ne peut être normal que pour un mélange trivial.

Considérons d'abord le cas d'une normale unidimensionnelle avec une moyenne et un paramètre de précision connus . Sans perte de généralité, nous pouvons supposer que le paramètre est la précision lui-même. Si la distribution marginale de est normale, alors est une densité normale jusqu'à une constante multiplicative. Cette densité étant une fonction paire de doit prendre la forme pour certains et certains constants . Étant donné que cela vaut pour toutμ=0ω:=1/Σ>0θωyexp{y2ω/2}ω1/2p(ω)dωycexp{y2ω0/2}ω0>0c>0yon obtient avec pour tout , ce qui montre que la mesure finie avec fonction de densité est proportionnelle à la masse de Dirac à car ces deux mesures ont la même transformée de Laplace, jusqu'à une constante multiplicative. Ainsi, est presque sûrement (comme) égal à . s:=y2

0exp{sω/2}ω1/2p(ω)dω=cexp{sω0/2}
s0ωω1/2p(ω)ω0ωω0

Cette preuve s'étend à la normale dimensionnelle avec un zéro moyen et une matrice de précision . La marge s'écrit ensuite comme où l'intégrale est sur l'ensemble de symétrique définie positive matrices. Si cette intégrale est identique à , alors en prenant pour un scalaire et un vecteur arbitrairedΩ:=Σ1exp{yΩy/2}|Ω|1/2p(Ω)dΩPd×dcexp{yΩ0y/2}y:=sus0u , nous trouvons comme ci-dessus que doit être aussi égal à , qui montre que est aussi égal à . La preuve fonctionne même si la mesure écrite commodément comme ayant la densité concentre sur un sous-ensemble de avec Lebesgue mesure zéro, car l'argument de transformation de Laplace s'applique toujours. La preuve fonctionne donc pour une paramétrisation générale de la matrice de précision (ou variance).uΩuuΩ0uΩΩ0|Ω|1/2p(Ω)P

Yves
la source
Je n'ai pas encore entièrement compris votre preuve. En comparaison avec la réponse de Jacky1, cela semble relativement complexe. Que pensez-vous de sa preuve?
Julian Karls
Eh bien, je ne pouvais pas comprendre comment le prieur pouvait dépendre de dans la réponse de Jacky. Pourtant, sa déclaration, si je comprends bien, est erronée - j'ai d'abord fait la même erreur :) En effet, n'est pas nécessairement constant et si la variance est constante, peut toujours être normal, ce qui est facilement vérifiable en remplissant un carré. J'ai maintenant une preuve pour le cas antérieur indépendant (unidimensionnel pour la simplicité), et j'espère l'écrire bientôt, peut-être comme une nouvelle réponse. La variance doit être constante et doit être normale (éventuellement dégénérée). yμμΣμ
Yves
Pourriez-vous développer votre raisonnement dans le paragraphe commençant par "Puisque cela vaut pour tout et se terminant par" (comme) égal à "? Peut-être avec des pointeurs vers les théorèmes que vous utilisez?yω0
Julian Karls
1

Supposons que et sont a priori indépendants et que a une marge normale avec une moyenne et une variance . Je prouverai alors que la variance doit être constante, et que la moyenne doit avoir un a priori normal (éventuellement dégénéré).μΣyμ0Σ0Σμ

Je vais m'en tenir au cas unidimensionnel pour plus de simplicité, en utilisant la fonction caractéristique (cf) de , c'est-à-dire . Nous savons que } et une formule similaire s'applique à la distribution de conditionnelle à et , ce qui est normal par hypothèse. Donc pour tout vrai et en réorganisant l'intégrale, nous devons avoir yϕy(t):=E[eyit]ϕy(t)=exp{μ0itΣ0t2/2yμΣt

E[eyit]=E[eyit|μ,Σ]p(μ)p(Σ)dμdΣ=exp{μitΣt2/2}p(μ)p(Σ)dμdΣ,
exp{μ0itΣ0t2/2}=[exp{μit}p(μ)dμ][exp{Σt2/2}p(Σ)dΣ].
Les hypothèses nécessaires à un tel réarrangement sont facilement vérifiables.

La première intégrale à droite, disons , est le cf de . Notez que puisque se trouve être réel, nous voyons que la distribution de est symétrique par rapport à , et donc que , comme cela aurait pu être prévu.ϕ1(t)μϕ1(t)eμ0itμμ0E[μ]=μ0

Maintenant, il s'avère que la deuxième intégrale à droite, disons , est aussi un cf Pour voir cela, nous devons vérifier que , que est continu à et aussi que la fonction est définie positive (pd). La première exigence est évidente, la seconde est prouvée par la convergence dominée. Passons maintenant à l'exigence de pd: si la distribution précédente écrite comme est une masse de Dirac, alors est pd car est alors le cf d'une distribution normale. Si l'a priori est un mélange discret de masses de Dirac, cela est également vrai puisqueϕ2(t)ϕ2(0)=1ϕ2t=0ϕ2p(Σ)dΣϕ2ϕ2ϕ2est alors le cf d'un mélange de normales. Par un argument de continuité, nous voyons que est pdϕ2

maintenant le puissant théorème de Lévy-Cramér qui dit que les deux fonctions pour , doivent prendre la forme avec real et . Donc doit être normal (éventuellement dégénéré) avec une moyenne . Par algèbre simple on a alors qui vaut pour tout réel . Puisque tout réel non négatif s'écrit comme , nous voyons que la transformée de Laplace du prieur deϕjj=12exp{ajitbjt2/2}ajbj0μa1=μ0

exp{(Σ0b1)t2/2}=0exp{Σt2/2}p(Σ)dΣ
tt2/2Σdoit être égal à celui de la masse de Dirac à et nous avons terminé.Σ0b1
Yves
la source
Merci pour votre effort. Il me faudra un certain temps pour comprendre cela.
Julian Karls
0

J'ai une proposition de preuve pour vous, mais vous devez la vérifier.

Supposons que la vraisemblance marginale soit gaussienne:

p(y)=N(y,m,Γ)

alors la densité antérieure peut être définie par

p(θ)=N(y,μ(θ),Σ(θ))1N(y,m,Γ)f(θ)

où vérifie et pour . ( est ).fθΘf(θ)dθ=1f(θ)0θΘf(θ)p(θ|y)

Pour être une densité, l'intégrale de la densité antérieure sur doit être égale à 1. En d'autres termes,p(θ)Θ

θΘN(y,μ(θ),Σ(θ))1N(y,m,Γ)f(θ)dθ=1 .

Cela mène à

θΘN(y,μ(θ),Σ(θ))1N(y,m,Γ)f(θ)dθ=θΘf(θ)dθ

Cette égalité étant vraie si et seulement si et .μ(θ)=mΣ(θ)=Γ

Jacky1
la source
2
J'aime l'idée de preuve. Je suis pratiquement certain que toutes les étapes, sauf la dernière, sont valides. Assurément, l'intégrale de deux fonctions est la même si les fonctions sont les mêmes, mais ce n'est pas une condition nécessaire. Utilisez-vous un théorème différent?
Julian Karls
Si vous remplacez par sa définition via bayes dans votre première formule pour , alors il devient . Certes, rien ne découle de cette inégalité. p(θ|y)p(θ)p(θ)=p(θ)
Julian Karls