Comment la distribution gamma inverse est-elle liée à et ?

8

Étant donné que l'estimation postérieure de σ2 d'une vraisemblance normale et d'un gamma inverse antérieur sur σ2 est:

σ2IG(α+n2,β+i=1n(yiμ)22)

ce qui équivaut à

σ2IG(n2,nσ22)

puisqu'un \ textrm {IG} faible (\ alpha, \ beta)IG(α,β) antérieur sur σ2 supprime α et β de l'équation 1:

σ2IG(n2,i=1n(yiμ)22)

Il est évident que l'estimation postérieure de σ2 est fonction de la taille de l'échantillon et de la somme des carrés de la vraisemblance. mais qu'est ce que ça veut dire? Il y a une dérivation sur Wikipédia que je ne comprends pas très bien.

J'ai les questions suivantes

  1. Puis-je accéder à cette deuxième équation sans invoquer la règle de Bayes? Je suis curieux de savoir s'il y a quelque chose d'inhérent aux paramètres d'une IG qui est lié à la moyenne et à la variance indépendamment de la vraisemblance normale.
  2. Puis-je utiliser la taille de l'échantillon et l'écart type d'une étude précédente pour estimer un a priori informé sur , puis mettre à jour l'a priori avec de nouvelles données? Cela semble simple, mais je ne peux trouver aucun exemple de le faire, ni justification pour laquelle ce serait une approche légitime - autre que ce qui peut être vu dans la partie postérieure.σ2
  3. Y a-t-il un manuel de probabilité ou de statistiques populaire que je peux consulter pour plus d'explications?
Abe
la source
Ne voulez-vous pas dire une probabilité de gamma inverse et un précédent de gamma inverse?
Neil G
1
Tout d'abord, je vois dans votre question plusieurs malentendus: à partir du théorème de Bayes, vous obtenez non pas une estimation postérieure, mais une distribution postérieure entière. Le deuxième point est que cette distribution postérieure ne dépend pas de "la somme des carrés de la probabilité". Cela dépend simplement de la taille de votre échantillon (à savoir, n) et des valeurs de l'échantillon, ce qui est parfaitement naturel et raisonnable. Ces dépendances affectent vos estimations postérieures de la moyenne, de la variance, etc. Par exemple, votre paramètre de variance moyenne postérieure est égal à
1n2(yiμ)2
Tomas
@thomas par estimation, je voulais dire estimation de la distribution postérieure;. La somme des termes carrés dans le postérieur n'est-elle pas exactement le même calcul que le terme ss dans la vraisemblance normale?
Abe
1
@Abe J'ai récemment posé (et répondu) une question liée à votre question nr. 2. On lui donne la SD et la SD de la SD comment calculer le gamma correspondant avant sur la précision d'une distribution normale: La question est ici: stats.stackexchange.com/questions/41187/…
Rasmus Bååth

Réponses:

9

Je pense qu'il est plus correct de parler de la distribution postérieure de votre paramètre plutôt que de son estimation postérieure. Pour la clarté des notations, je laisserai tomber le premier dans dans ce qui suit.σ2σ2

Supposons que soit distribué comme , - je laisse tomber pour l'instant pour faire un exemple heuristique - et est distribué comme et est indépendant de .XN(0,σ2)μ1/σ2=σ2Γ(α,β)X

Le pdf de donné est gaussien, ieXσ2

f(x|σ2)=12πσ2exp(x22σ2).

Le pdf commun de , est obtenu en multipliant par - le pdf de . Cela sort comme(X,σ2)f(x,σ2)f(x|σ2)g(σ2)σ2

f(x,σ2)=12πσ2exp(x22σ2)βαΓ(α)exp(βσ2)1σ2(α1).

Nous pouvons regrouper des termes similaires et les réécrire comme suit

f(x,σ2)σ2(α1/2)exp(σ2(β+x2/2)).

La distribution postérieure de est par définition le pdf de étant donné , qui est par la formule de Bayes . Pour répondre à votre question 1. Je ne pense pas qu'il existe un moyen d'exprimer partir de sans utiliser la formule de Bayes. Avec le calcul, nous reconnaissons dans la formule ci-dessus quelque chose qui ressemble à une fonction , donc l'intégration de pour obtenir est assez facile.σ2σ2xf(x,σ2)/f(x)f(σ2|x)f(x,σ2)Γσ2f(x)

f(x)(β+x2/2)(α+1/2),

donc en divisant on obtient

f(σ2|x)(β+x2/2)(σ2(β+x2/2))α1/2exp(σ2(β+x2/2))(σ2(β+x2/2))α1/2exp(σ2(β+x2/2)).

Et ici, dans la dernière formule, nous reconnaissons une distribution avec des paramètres .Γ(α+1/2,β+x2/2)

Si vous avez un échantillon IID , en intégrant tous les , vous obtiendrez puis comme produit de la termes suivants:((x1,σ12),...,(xn,σn2))σi2f(x1,...,xn)f(σ12,...,σn2|x1,...,xn)

f(σ12,...,σn2|x1,...,xn)i=1n(σi2(β+xi2/2))α1/2exp(σi2(β+xi2/2)),

Qui est un produit des variables . Et nous sommes coincés ici à cause de la multiplicité des . En outre, la distribution de la moyenne de ces variables indépendantes n'est pas simple à calculer.Γσi2Γ

Cependant, si nous supposons que toutes les observations partagent la même valeur de (ce qui semble être votre cas) c'est -à- dire que la valeur de n'a été tirée qu'une seule fois à partir d'un et que tous les ont ensuite été dessinés avec cette valeur de , on obtientxiσ2σ2Γ(α,β)xiσ2

f(x1,...,xn,σ2)σ2(α+n/2)exp(σ2(β+12i=1nxi2)),

à partir de laquelle nous dérivons la distribution postérieure de comme votre équation 1 en appliquant la formule de Bayes.σ2

La distribution postérieure de est un qui dépend de et , de vos paramètres antérieurs, de la taille de l'échantillon et de la somme des carrés observée. La moyenne antérieure de est et la variance est , donc si et la valeur est très petite, l'a priori porte très peu d'informations sur car la variance devient énorme. Les valeurs étant petites, vous pouvez les supprimer des équations ci-dessus et vous vous retrouvez avec votre équation 3.σ2Γαβnσ2α/βα/β2α=βσ2

Dans ce cas, la distribution postérieure devient indépendante de l'a priori. Cette formule dit que l'inverse de la variance a une distribution qui ne dépend que de la taille de l'échantillon et de la somme des carrés. Vous pouvez montrer que pour les variables gaussiennes de moyenne connue, , l'estimateur de la variance, a la même distribution, sauf qu'il est fonction de la taille de l'échantillon et de la valeur réelle du parter . Dans le cas bayésien, c'est la distribution du paramètre, dans le cas fréquentiste, c'est la distribution de l'estimateur.ΓS2σ2

Concernant votre question 2. vous pouvez bien sûr utiliser les valeurs obtenues lors d'une expérience précédente comme vos priors. Parce que nous avons établi un parallèle entre l'interprétation bayésienne et fréquentiste dans ce qui précède, nous pouvons élaborer et dire que c'est comme calculer une variance à partir d'un petit échantillon et collecter ensuite plus de points de données: vous mettriez à jour votre estimation de la variance plutôt que de jeter les premiers points de données.

En ce qui concerne votre question 3. J'aime l' introduction aux statistiques mathématiques de Hogg, McKean et Craig, qui donne généralement le détail de la façon de dériver ces équations.

gui11aume
la source
1

Pour la question 1, la deuxième équation découle de la règle de Bayes comme vous le faites remarquer, et je ne vois pas comment l'éviter.

Pour la question 2, oui, vous pouvez le faire. Utilisez simplement un a priori de la même forme que votre deuxième équation.

Pour la question 3, je chercherais quelque chose sur les familles exponentielles. Peut-être que quelqu'un recommandera une bonne ressource.

Neil G
la source