Modèle logit bayésien - explication intuitive?

11

Je dois avouer que je n'avais jamais entendu parler de ce terme dans aucune de mes classes, de premier cycle ou de cycle supérieur.

Que signifie qu'une régression logistique soit bayésienne? Je cherche une explication avec une transition de la logistique régulière à la logistique bayésienne similaire à la suivante:

Voici l'équation du modèle de régression linéaire: .E(y)=β0+β1x1+...+βnxn

C'est l'équation du modèle de régression logistique: . Cela se fait lorsque y est catégorique.ln(E(y)1E(y))=β0+β1x1+...+βnxn

Ce que nous avons fait, c'est changer en .ln ( E ( y )E(y)ln(E(y)1E(y))

Alors, que fait le modèle de régression logistique dans la régression logistique bayésienne? Je suppose que ce n'est pas quelque chose à voir avec l'équation.

Cet aperçu du livre semble définir, mais je ne comprends pas vraiment. Qu'est-ce que tout cela avant, vraisemblablement? Qu'est-ce que ? Quelqu'un peut-il expliquer cette partie du livre ou du modèle logit bayésien d'une autre manière?α

Remarque: Cela a déjà été demandé mais n'a pas été très bien répondu je pense.

BCLC
la source
1
Je ne veux pas mettre cela dans une réponse parce que je pense que @Tim a la plupart du temps couvert. La seule chose qui manque à cette excellente réponse est que, dans la régression logistique bayésienne et les modèles linéaires généralisés bayésiens (GLM) plus généralement, les distributions antérieures ne sont pas seulement placées sur les coefficients, mais sur les variances et la covariance de ces coefficients. Ceci est extrêmement important à mentionner, car l'un des principaux avantages d'une approche bayésienne des GLM est la plus grande facilité de spécification et, dans de nombreux cas, l'ajustement de modèles complexes pour la covariance des coefficients.
Brash Equilibrium
2
@BrashEquilibrium: vous mentionnez une éventuelle extension hiérarchique de la modélisation bayésienne standard pour un modèle logit. Dans notre livre , nous utilisons par exemple un g-avant sur la « s, avant que la matrice de covariance fixe est dérivé du covariables . XβX
Xi'an
1
Assez juste sur le g avant.
Brash Equilibrium
1
Cela dit, il y a encore un prior sur les covariances !!!!!! Si vous n'en discutez pas, vous ne décrivez pas comment fonctionne complètement la régression logistique.
Brash Equilibrium

Réponses:

19

La régression logistique peut être décrite comme une combinaison linéaire

η=β0+β1X1+...+βkXk

qui est passé par la fonction de lien :g

g(E(Y))=η

où la fonction de liaison est une fonction logit

E(Y|X,β)=p=logit1(η)

où ne prend que des valeurs dans et les fonctions logit inverses transforment la combinaison linéaire dans cette plage. C'est là que s'arrête la régression logistique classique.{ 0 , 1 } ηY{0,1}η

Cependant, si vous vous souvenez que pour les variables qui ne prennent que des valeurs dans , alors peut être considéré comme . Dans ce cas, la sortie de la fonction logit pourrait être considérée comme une probabilité conditionnelle de "succès", c'est-à-dire . La distribution de Bernoulli est une distribution qui décrit la probabilité d'observer le résultat binaire, avec un paramètre , nous pouvons donc décrire comme{ 0 , 1 } E ( Y | X , β ) P ( Y = 1 | X , β ) P ( Y = 1 | X , β ) p YE(Y)=P(Y=1){0,1}E(Y|X,β)P(Y=1|X,β)P(Y=1|X,β)pY

yiBernoulli(p)

Donc, avec la régression logistique, nous recherchons certains paramètres qui se combinent avec des variables indépendantes forment une combinaison linéaire . Dans la régression classique (nous supposons que la fonction de lien est une fonction d'identité), cependant pour modéliser qui prend des valeurs dans nous devons transformer pour l'adapter dans la plage .X η E ( Y | X , β ) = η Y { 0 , 1 } η [ 0 , 1 ]βXηE(Y|X,β)=ηY{0,1}η[0,1]

Maintenant, pour estimer la régression logistique de manière bayésienne, vous prenez quelques priors pour les paramètres comme avec la régression linéaire (voir Kruschke et al, 2012 ), puis utilisez la fonction logit pour transformer la combinaison linéaire , afin d'utiliser sa sortie comme un paramètre de la distribution de Bernoulli qui décrit votre variableDonc, oui, vous utilisez en fait l'équation et la fonction de lien logit de la même manière que dans le cas fréquentitionniste, et le reste fonctionne (par exemple en choisissant des a priori) comme avec l'estimation de la régression linéaire de la manière bayésienne. η p YβiηpY

L'approche simple pour choisir les a priori est de choisir des distributions normales (mais vous pouvez également utiliser d'autres distributions, par exemple la distribution - ou Laplace pour un modèle plus robuste) pour les avec des paramètres et qui sont prédéfinis ou pris des prieurs hiérarchiques . Maintenant, ayant la définition du modèle, vous pouvez utiliser un logiciel tel que JAGS pour effectuer une simulation Markov Chain Monte Carlo pour vous permettre d'estimer le modèle. Ci-dessous, je poste le code JAGS pour un modèle logistique simple ( cliquez ici pour plus d'exemples).β i μ i σ 2 itβiμiσi2

model {
   # setting up priors
   a ~ dnorm(0, .0001)
   b ~ dnorm(0, .0001)

   for (i in 1:N) {
      # passing the linear combination through logit function
      logit(p[i]) <- a + b * x[i]

      # likelihood function
      y[i] ~ dbern(p[i])
   }
}

Comme vous pouvez le voir, le code se traduit directement en définition de modèle. Ce que fait le logiciel, c'est qu'il tire certaines valeurs des valeurs normales pour apuis b, il utilise ces valeurs pour estimer pet enfin, utilise la fonction de vraisemblance pour évaluer la probabilité de vos données compte tenu de ces paramètres (c'est lorsque vous utilisez le théorème de Bayes, voir ici pour description plus détaillée).

Le modèle de régression logistique de base peut être étendu pour modéliser la dépendance entre les prédicteurs à l'aide d'un modèle hiérarchique (y compris les hyperpriors ). Dans ce cas, vous pouvez tirer les de la distribution normale multivariée qui nous permet d'inclure des informations sur la covariance entre des variables indépendantesβiΣ

(β0β1βk)MVN([μ0μ1μk],[σ02σ0,1σ0,kσ1,0σ12σ1,kσk,0σk,1σk2])

... mais cela entre dans les détails, alors arrêtons-nous ici.

La partie "bayésienne" ici consiste à choisir des a priori, en utilisant le théorème de Bayes et en définissant le modèle en termes probabilistes. Voir ici pour la définition du "modèle bayésien" et ici pour une intuition générale sur l'approche bayésienne . Ce que vous pouvez également remarquer, c'est que la définition des modèles est assez simple et flexible avec cette approche.


Kruschke, JK, Aguinis, H., et Joo, H. (2012). Le moment est venu: méthodes bayésiennes pour l'analyse des données en sciences organisationnelles. Méthodes de recherche organisationnelle, 15 (4), 722-752.

Gelman, A., Jakulin, A., Pittau, GM et Su, Y.-S. (2008). Une distribution a priori par défaut faiblement informative pour les modèles logistiques et autres modèles de régression. The Annals of Applied Statistics, 2 (4), 1360–1383.

Tim
la source
1
Vous avez besoin de preuves des variances, pas seulement des coefficients.
Brash Equilibrium
3
@BCLC non, pour la régression logistique, logit est utilisé comme fonction de lien , tandis que est une combinaison linéaire , par exemple pour la régression linéaire est la fonction d'identité, donc , ceci est juste une spécification standard de GLM . η η = β 0 + β 1 X 1 g E ( Y ) = ηgηη=β0+β1X1gE(Y)=η
Tim
1
@BCLC vérifiez les liens dans ma réponse, ils fournissent une introduction aux statistiques bayésiennes en général. C'est un sujet beaucoup plus large que celui mentionné dans votre question initiale mais vous pouvez trouver une belle introduction dans les références que j'ai fournies dans ma réponse.
Tim
1
@Tim J'ai fait une faute de frappe là-bas. Les preuves sont censées lire les prieurs. Fondamentalement, les coefficients ne sont pas les seuls paramètres inconnus. La distribution multinomiale a également une matrice de covariance de variance et généralement nous ne supposons pas qu'elle soit connue.
Brash Equilibrium
3
"La partie" bayésienne "ici consiste à choisir les prieurs, à utiliser le théorème de Bayes et à définir le modèle en termes probabilistes." Une bonne référence ici est Gelman et al. UNE DISTRIBUTION PRIORITAIRE FAIBLEMENT INFORMATIVE POUR LES MODÈLES LOGISTIQUES ET AUTRES MODÈLES DE RÉGRESSION stat.columbia.edu/~gelman/research/published/priors11.pdf
Dalton Hance
6

Qu'est-ce que tout cela avant, vraisemblablement?

C'est ce qui le rend bayésien. Le modèle génératif pour les données est le même; la différence est qu'une analyse bayésienne choisit une distribution antérieure pour les paramètres d'intérêt, et calcule ou se rapproche d'une distribution postérieure , sur laquelle toute inférence est basée. La règle de Bayes relie les deux: le postérieur est proportionnel aux temps de vraisemblance antérieurs.

Intuitivement, cet a priori permet à un analyste d'exprimer mathématiquement une expertise en la matière ou des résultats préexistants. Par exemple, le texte auquel vous faites référence indique que le précédent pour est une normale multivariée. Des études antérieures suggèrent peut-être une certaine gamme de paramètres qui peuvent être exprimés avec certains paramètres normaux. (La flexibilité s'accompagne de la responsabilité: il faut être en mesure de justifier ses antécédents devant un public sceptique.) Dans des modèles plus élaborés, on peut utiliser l'expertise du domaine pour régler certains paramètres latents. Par exemple, voir l'exemple du foie référencé dans cette réponse .β

Certains modèles fréquentistes peuvent être liés à un homologue bayésien avec un a priori spécifique, bien que je ne sache pas qui correspond dans ce cas.

Sean Easter
la source
SeanEaster, «avant» est le mot utilisé pour la distribution supposée? Par exemple, nous supposons les X ou les (si vous voulez dire comme dans , voulez-vous plutôt dire , , ..., ? Je ne veux pas pense que les ont des distributions ...?) sont normales mais nous essayons de les adapter à une autre distribution? Qu'entendez-vous exactement par «approximatif»? J'ai le sentiment que ce n'est pas la même chose que les «ajustements»β β 1 , β 2 , . . . , β n X 1 X 2 X n ββββ1,β2,...,βnX1X2Xnβ
BCLC
1
@BCLC Pour y répondre, je vais commencer par le processus nu de l'inférence bayésienne et définir les termes au fur et à mesure: les bayésiens traitent tous les paramètres d'intérêt comme des variables aléatoires et mettent à jour leurs croyances sur ces paramètres à la lumière des données. La distribution préalable exprime sa croyance sur les paramètres avant d'analyser les données; la * distribution postérieure * - par la règle de Bayes, le produit normalisé de l'a priori et de la vraisemblance - résume une croyance incertaine sur les paramètres à la lumière de l'a priori et des données. Le calcul de la partie postérieure est le lieu de l'ajustement.
Sean Easter
1
@BCLC Ainsi pourquoi les paramètres ont une distribution. Dans d'autres modèles bayésiens, généralement simples, les distributions postérieures peuvent avoir une expression de forme fermée. (Dans une variable aléatoire de Bernoulli avec un bêta a priori sur , le postérieur de est une distribution bêta, par exemple.) Mais lorsque les postérieurs ne peuvent pas être exprimés analytiquement, nous les rapprochons , généralement en utilisant des méthodes MCMC. p pβpp
Sean Easter
D'accord, je pense que je vous comprends mieux après avoir lu un essai pour résoudre un problème dans la doctrine des chances . Merci SeanEster
BCLC
1
Oui. Dans de nombreux cas, ce serait impossible à calculer analytiquement. P(B)
Sean Easter