Modèles binaires (Probit et Logit) avec un décalage logarithmique

12

Quelqu'un a-t-il une dérivation de la façon dont un décalage fonctionne dans des modèles binaires comme probit et logit?

Dans mon problème, la fenêtre de suivi peut varier en longueur. Supposons que les patients reçoivent une injection prophylactique comme traitement. Le tir passe à des moments différents, donc si le résultat est un indicateur binaire de savoir si les poussées se sont passées , vous devez tenir compte du fait que certaines personnes ont plus de temps à des symptômes d'exposition. Il semble que la probabilité d'une poussée soit proportionnelle à la durée de la période de suivi. Mathématiquement, je ne vois pas comment un modèle binaire avec décalage capture cette intuition (contrairement au Poisson).

Le décalage est une option standard dans Stata (p.1666) et R , et je peux facilement le voir pour un Poisson , mais le cas binaire est un peu opaque.

Par exemple, si nous avons c'est algébriquement équivalent à un modèle où E[y| x]=exp{xβ+logZ}, qui est le modèle standard avec le coefficient surlogZcontraint à1. C'est ce qu'on appelle undécalage logarithmique. J'ai du mal à comprendre comment cela fonctionne si nous remplaçonsexp{}parΦ()ouΛ

E[y|x]Z=exp{xβ},
E[y|x]=exp{xβ+logZ},
logZ1exp{}Φ() .Λ()

Mise à jour # 1:

Le cas logit a été expliqué ci-dessous.

Mise à jour # 2:

βx=2z=2xxz

Dimitriy V. Masterov
la source

Réponses:

8

Vous pouvez toujours inclure un décalage dans n'importe quel GLM: c'est juste une variable prédictive dont le coefficient est fixé à 1. La régression de Poisson s'avère justement être un cas d'utilisation très courant.

Notez que dans un modèle binomial, l'analogique à l'exposition logarithmique en tant que décalage n'est que le dénominateur binomial, il n'est donc généralement pas nécessaire de le spécifier explicitement. De la même façon que vous pouvez modéliser un RV de poisson en tant que comptage avec exposition logarithmique en tant que décalage, ou en tant que ratio avec exposition en tant que poids, vous pouvez également modéliser un RV binomial en tant que nombre de réussites et d'échecs, ou en tant que fréquence avec des essais comme un poids.

Dans une régression logistique, vous interpréteriez un logZZp/(1p)

log(p/(1p))=βX+logZp/(1p)=Zexp(βX)

Mais cela n'a pas de signification particulière comme le fait l'exposition logarithmique dans une régression de Poisson. Cela dit, si votre probabilité binomiale est suffisamment petite, un modèle logistique s'approchera d'un modèle de Poisson avec lien logarithmique (puisque le dénominateur sur le LHS approche 1) et le décalage peut être traité comme un terme log-exposition.

(Le problème décrit dans votre question R liée était plutôt idiosyncrasique.)

Hong Ooi
la source
Pr(Y=1|X)=Φ(xβ+ln(t))tt
Ce n'est pas la probabilité, mais le rapport de cotes. Espérons que le montage le rende plus clair.
Hong Ooi
Exprimer le problème en termes de rapport de cotes le rend très clair. Et le probit?
Dimitriy V. Masterov
Φ()
@StasK Cela semble juste, mais alors pourquoi ces options existent-elles dans Stata et R? Que font-ils?
Dimitriy V. Masterov
1

En refondant cela comme un problème de survenue d'un événement, un modèle logistique avec un décalage ln (temps) ne vous engagerait-il pas efficacement dans une fonction de survie paramétrique qui pourrait ou non convenir aux données?

p / (1-p) = Z * exp (xbeta)

p = [Z * exp (xbeta)] / [1 + Z * exp (xbeta)]

Survie prévue au temps Z = 1- [Z * exp (xbeta)] / [1 + Z * exp (xbeta)]

Eric
la source