Pourquoi utiliser une distribution bêta sur le paramètre Bernoulli pour la régression logistique hiérarchique?

13

Je suis en train de lire l'excellent livre de Kruschke «Faire l'analyse des données bayésiennes». Cependant, le chapitre sur la régression logistique hiérarchique (chapitre 20) est quelque peu déroutant.

La figure 20.2 décrit une régression logistique hiérarchique où le paramètre de Bernoulli est défini comme la fonction linéaire sur les coefficients transformés par une fonction sigmoïde. Cela semble être la manière dont la régression logistique hiérarchique est posée dans la plupart des exemples que j'ai vus dans d'autres sources en ligne également. Par exemple - http://polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug

Cependant, lorsque les prédicteurs sont nominaux, il ajoute une couche dans la hiérarchie - le paramètre Bernoulli est désormais tiré d'une distribution bêta (figure 20.5) avec des paramètres déterminés par mu et kappa, où mu est la transformation sigmoïde de la fonction linéaire des coefficients et kappa utilise un gamma prior.

Cela semble raisonnable et analogue à l'exemple de retournement de pièces du chapitre 9, mais je ne vois pas ce qu'avoir des prédicteurs nominaux a à voir avec l'ajout d'une distribution bêta. Pourquoi ne ferait-on pas cela dans le cas des prédicteurs métriques et pourquoi la distribution bêta a-t-elle été ajoutée pour les prédicteurs nominaux?

EDIT: Clarification sur les modèles auxquels je fais référence. Tout d'abord, un modèle de régression logistique avec des prédicteurs métriques (pas de bêta préalable). Ceci est similaire à d'autres exemples de régression logistique hiérarchique, tels que l'exemple de bogues ci-dessus:

yiBernoulli(μi)μi=sig(β0+jβjxji)β0N(M0,T0)βjN(Mβ,Tβ)

Ensuite l'exemple avec des prédicteurs nominaux. Voici où je ne comprends pas très bien le rôle du niveau "inférieur" de la hiérarchie (incorporant le résultat logistique dans une version bêta préalable pour un binôme) et pourquoi il devrait être différent de l'exemple métrique.

ziBin(θi,N)θiBeta(aj,bj)aj=μjκbj=(1μj)κκΓ(Sκ,Rκ)μj=sig(β0+jβjxji)β0N(M0,T0)βjN(0,τβ)τβ=1/σβ2σβ2folded t(Tt,DF)
user4733
la source

Réponses:

9

Les deux modèles que vous comparez ont de nombreuses fonctionnalités étrangères, et je pense que vous pouvez reformuler votre question plus clairement dans le contexte des deux modèles simplifiés suivants:

Modèle 1:

yi|μiBern(μi)μiπ(μi)

Modèle 2:

yi|θiBern(θi)θi|μi,κBeta(μiκ,(1μi)κ)μiπ(μi)

Vos questions sont: (1) quel rôle joue la distribution bêta; et connexes, (2) en quoi (le cas échéant) le modèle 2 est-il différent du modèle 1?

μiμi

p(μi|yi)μiyi(1μi)1yiπ(μi)
μi
p(μje|yje,κ)01θjeyje+μjeκ-1(1-θje)κ(1-μje)-yjeB(κμje,κ(1-μje))θπ(μje)B(yje+μjeκ,1-yje+κ(1-μje))π(μje)B(κμje,κ(1-μje))μjeyje(1-μje)1-yjeπ(μje)

θje

jmtroos
la source
5

La raison pour laquelle le paramètre de Bernoulli est tiré d'une distribution bêta est que la bêta est conjuguée au binôme. L'utilisation d'une distribution préalable conjuguée permet de trouver une solution de forme fermée pour trouver le postérieur.

EDIT: clarifier. Les deux modèles fonctionneront. Même avec MCMC, il est utile d'avoir des antécédents conjugués car cela permet d'utiliser des échantillonneurs spécialisés pour divers types de distributions plus efficaces que les échantillonneurs génériques. Par exemple, voir le manuel d'utilisation JAGS sec. 4.1.1 et sec 4.2.

Jack Tanner
la source
Il n'y a peut-être pas assez de contexte dans le livre de ma question, mais ces analyses sont effectuées avec un échantillonnage de Gibbs, donc une représentation sous forme fermée du postérieur n'est pas nécessaire. Dans l'exemple que j'ai lié, le paramètre bernoulli n'est pas fixé en tant que distribution bêta, mais résulte d'une transformation sigmoïde des prédicteurs linéaires, qui ont des coefficients normalement distribués. C'est aussi ainsi que Kruschke présente un exemple précédent (avec des prédicteurs métriques) dans le chapitre également (le paramètre bernoulli n'est que la transformation sigmoïde de la fonction linéaire avec des coefficients normalement distribués)
user4733
@ user4733 Jack Tanner a raison sur le fait que la bêta est le conjugué avant les échantillons bernoulli. il semble plus qu'une coïncidence qu'il a été choisi. Oui, vous faites peut-être un échantillonnage de Gibbs pour obtenir la distribution postérieure, mais dans un modèle hiérarchique, il y a plus d'un a priori impliqué et il se pourrait que vous mettiez un a priori sur un hyperparamètre (un paramètre pour une famille de distributions a priori. C'est un avant sur le prieur si vous le souhaitez. Dans ce contexte, il peut être pratique d'utiliser un conjugué a priori. Une partie de votre description du livre nous prête à confusion.
Michael R. Chernick
1
Vous prenez de petits extraits qui créent des lacunes dans notre capacité à comprendre ce qui se passe. Vous devez mieux décrire le modèle et la hiérarchie des prieurs pour nous aider (au moins pour moi)>
Michael R. Chernick
Ajout de quelques descriptions aux modèles hiérarchiques auxquels je fais référence. J'espère que cela aide.
user4733