Étant donné que l'estimation postérieure de d'une vraisemblance normale et d'un gamma inverse antérieur sur est:
ce qui équivaut à
puisqu'un \ textrm {IG} faible (\ alpha, \ beta) antérieur sur supprime et de l'équation 1:
Il est évident que l'estimation postérieure de est fonction de la taille de l'échantillon et de la somme des carrés de la vraisemblance. mais qu'est ce que ça veut dire? Il y a une dérivation sur Wikipédia que je ne comprends pas très bien.
J'ai les questions suivantes
- Puis-je accéder à cette deuxième équation sans invoquer la règle de Bayes? Je suis curieux de savoir s'il y a quelque chose d'inhérent aux paramètres d'une IG qui est lié à la moyenne et à la variance indépendamment de la vraisemblance normale.
- Puis-je utiliser la taille de l'échantillon et l'écart type d'une étude précédente pour estimer un a priori informé sur , puis mettre à jour l'a priori avec de nouvelles données? Cela semble simple, mais je ne peux trouver aucun exemple de le faire, ni justification pour laquelle ce serait une approche légitime - autre que ce qui peut être vu dans la partie postérieure.
- Y a-t-il un manuel de probabilité ou de statistiques populaire que je peux consulter pour plus d'explications?
Réponses:
Je pense qu'il est plus correct de parler de la distribution postérieure de votre paramètre plutôt que de son estimation postérieure. Pour la clarté des notations, je laisserai tomber le premier dans dans ce qui suit.σ′2 σ′2
Supposons que soit distribué comme , - je laisse tomber pour l'instant pour faire un exemple heuristique - et est distribué comme et est indépendant de .X N(0,σ2) μ 1/σ2=σ−2 Γ(α,β) X
Le pdf de donné est gaussien, ieX σ−2
Le pdf commun de , est obtenu en multipliant par - le pdf de . Cela sort comme(X,σ−2) f(x,σ−2) f(x|σ−2) g(σ−2) σ−2
Nous pouvons regrouper des termes similaires et les réécrire comme suit
La distribution postérieure de est par définition le pdf de étant donné , qui est par la formule de Bayes . Pour répondre à votre question 1. Je ne pense pas qu'il existe un moyen d'exprimer partir de sans utiliser la formule de Bayes. Avec le calcul, nous reconnaissons dans la formule ci-dessus quelque chose qui ressemble à une fonction , donc l'intégration de pour obtenir est assez facile.σ−2 σ−2 x f(x,σ−2)/f(x) f(σ−2|x) f(x,σ−2) Γ σ−2 f(x)
donc en divisant on obtient
Et ici, dans la dernière formule, nous reconnaissons une distribution avec des paramètres .Γ (α+1/2,β+x2/2)
Si vous avez un échantillon IID , en intégrant tous les , vous obtiendrez puis comme produit de la termes suivants:((x1,σ−21),...,(xn,σ−2n)) σ−2i f(x1,...,xn) f(σ−21,...,σ−2n|x1,...,xn)
Qui est un produit des variables . Et nous sommes coincés ici à cause de la multiplicité des . En outre, la distribution de la moyenne de ces variables indépendantes n'est pas simple à calculer.Γ σ−2i Γ
Cependant, si nous supposons que toutes les observations partagent la même valeur de (ce qui semble être votre cas) c'est -à- dire que la valeur de n'a été tirée qu'une seule fois à partir d'un et que tous les ont ensuite été dessinés avec cette valeur de , on obtientxi σ−2 σ−2 Γ(α,β) xi σ−2
à partir de laquelle nous dérivons la distribution postérieure de comme votre équation 1 en appliquant la formule de Bayes.σ−2
La distribution postérieure de est un qui dépend de et , de vos paramètres antérieurs, de la taille de l'échantillon et de la somme des carrés observée. La moyenne antérieure de est et la variance est , donc si et la valeur est très petite, l'a priori porte très peu d'informations sur car la variance devient énorme. Les valeurs étant petites, vous pouvez les supprimer des équations ci-dessus et vous vous retrouvez avec votre équation 3.σ−2 Γ α β n σ−2 α/β α/β2 α=β σ−2
Dans ce cas, la distribution postérieure devient indépendante de l'a priori. Cette formule dit que l'inverse de la variance a une distribution qui ne dépend que de la taille de l'échantillon et de la somme des carrés. Vous pouvez montrer que pour les variables gaussiennes de moyenne connue, , l'estimateur de la variance, a la même distribution, sauf qu'il est fonction de la taille de l'échantillon et de la valeur réelle du parter . Dans le cas bayésien, c'est la distribution du paramètre, dans le cas fréquentiste, c'est la distribution de l'estimateur.Γ S2 σ2
Concernant votre question 2. vous pouvez bien sûr utiliser les valeurs obtenues lors d'une expérience précédente comme vos priors. Parce que nous avons établi un parallèle entre l'interprétation bayésienne et fréquentiste dans ce qui précède, nous pouvons élaborer et dire que c'est comme calculer une variance à partir d'un petit échantillon et collecter ensuite plus de points de données: vous mettriez à jour votre estimation de la variance plutôt que de jeter les premiers points de données.
En ce qui concerne votre question 3. J'aime l' introduction aux statistiques mathématiques de Hogg, McKean et Craig, qui donne généralement le détail de la façon de dériver ces équations.
la source
Pour la question 1, la deuxième équation découle de la règle de Bayes comme vous le faites remarquer, et je ne vois pas comment l'éviter.
Pour la question 2, oui, vous pouvez le faire. Utilisez simplement un a priori de la même forme que votre deuxième équation.
Pour la question 3, je chercherais quelque chose sur les familles exponentielles. Peut-être que quelqu'un recommandera une bonne ressource.
la source