Dans un modèle de Poisson, quelle est la différence entre l'utilisation du temps comme covariable ou un décalage?

18

J'ai récemment découvert comment modéliser des expositions dans le temps en utilisant le log (par exemple) du temps comme décalage dans une régression de Poisson.

J'ai compris que le décalage correspond au fait d'avoir le temps comme covariable avec le coefficient 1.

J'aimerais mieux comprendre la différence entre utiliser le temps comme décalage ou comme covariable normale (donc estimer le coefficient). Dans quelle situation devrais-je vouloir utiliser une méthode ou l'autre?

MISE À NIVEAU: Je ne sais pas si c'est intéressant, mais j'ai effectué une validation des deux méthodes en utilisant des données divisées de manière aléatoire répétées 500 fois et j'ai remarqué que l'utilisation de la méthode de décalage entraîne une plus grande erreur de test.

Bakaburg
la source

Réponses:

25

Les décalages peuvent être utilisés dans n'importe quel modèle de régression, mais ils sont beaucoup plus courants lorsque vous travaillez avec des données de comptage pour votre variable de réponse. Un décalage n'est qu'une variable qui est forcée d'avoir un coefficient de 1 dans le modèle. (Voir aussi cet excellent thread CV: Quand utiliser un décalage dans une régression de Poisson? )

Lorsqu'il est utilisé correctement avec les données de comptage, cela vous permettra de modéliser les taux au lieu des comptages . Si cela vous intéresse, alors c'est quelque chose à faire. Il s'agit donc du contexte dans lequel les compensations sont utilisées le plus fréquemment. Prenons un GLiM de Poisson avec un lien log (qui est le lien canonique).

ln(λ)=β0+β1X(counts)ln(λtime)=β0+β1X(rates)ln(λ)ln(time)=β0+β1Xln(λ)=β0+β1X+1×ln(time)(still rates)ln(λ)=β0+β1X+β2×ln(time)when β21(counts again)

(Comme vous pouvez le voir, la clé pour utiliser un décalage correctement est de faire le décalage, pas t i m e .) ln(time)tjeme

Lorsque le coefficient sur n'est pas 1 , vous ne modélisez plus les taux. Mais comme β 2( - , 1 ) ( 1 , ) offre une flexibilité beaucoup plus grande pour ajuster les données, les modèles qui n'utilisent pas ln ( t i m e ) comme décalage s'adapteront généralement mieux (bien qu'ils puissent aussi overfit). ln(tjeme)1β2(-,1)(1,)ln(tjeme)


La question de savoir si vous devez modéliser le nombre ou les taux dépend vraiment de votre question de fond. Vous devez modéliser celui qui correspond à ce que vous voulez savoir.

En ce qui concerne ce que cela pourrait signifier pour que ne soit pas 1 , considérons un exemple où le temps n'est pas la variable en question. Imaginez étudier le nombre de complications chirurgicales dans différents hôpitaux. Un hôpital a signalé beaucoup plus de complications chirurgicales, mais ils pourraient prétendre que la comparaison n'est pas juste car ils font beaucoup plus de chirurgies. Vous décidez donc d'essayer de contrôler cela. Vous pouvez simplement utiliser le journal du nombre de chirurgies comme décalage, ce qui vous permettrait d'étudier le taux de complications par chirurgie. Vous pouvez également utiliser le journal du nombre de chirurgies comme une autre covariable. Disons que le coefficient est significativement différent de 1 . Si β 2 > 1β211β2>1, alors les hôpitaux qui font plus de chirurgies ont un taux de complications plus élevé (peut-être parce qu'ils se précipitent pour faire plus). Si , les hôpitaux qui en font le plus ont moins de complications par chirurgie (peut-être ont-ils les meilleurs médecins, font-en plus et font-ils mieux). β2<1

Voir comment cela pourrait se produire si la variable en question était le temps est un peu plus compliqué. La distribution de Poisson provient du processus de Poisson , dans lequel le temps entre les événements est distribué de façon exponentielle, et il existe donc un lien naturel avec l'analyse de survie. Dans l'analyse de la survie, le temps avant les événements n'est souvent pas distribué comme une exponentielle, mais le risque de base peut devenir plus ou moins grand avec le temps. Considérez donc un cas où vous modélisez le nombre d'événements qui se produisent à la suite d'un point de départ naturel. Si , cela signifie que le rythme des événements s'accélère, alors que si β 2 < 1β2>1β2<1, cela signifie que le rythme des événements ralentit.

Pour un exemple concret de la première, imaginez un scan qui compte le nombre de cellules cancéreuses une période de temps après l'ablation chirurgicale de la tumeur initiale. Pour certains patients, plus de temps s'est écoulé depuis la chirurgie et vous vouliez en tenir compte. Puisqu'une fois qu'un cancer a repris pied, il commencera à croître de façon exponentielle, le taux augmentera au fil du temps depuis la chirurgie sans traitement supplémentaire.

Pour un exemple concret de ce dernier, considérons le nombre de personnes décédées d'une épidémie pour laquelle nous n'avons aucun traitement. Au début, beaucoup de gens meurent parce qu'ils étaient plus sensibles à cette maladie, ou avaient déjà un système immunitaire affaibli, etc. Au fil du temps, comme la population de personnes restantes est moins sensible à la maladie, le taux diminuera. (Désolé, cet exemple est si morbide.)

gung - Réintégrer Monica
la source
y=tjemeexp(1pβpXp+const)y=tjemeβtjemeexp(1pβpXp+const)
1
Par conséquent, pourquoi devrait-on supposer que la relation entre le temps et les événements est linéaire et croissante? Ne serait-il pas préférable d'estimer la forme d'une telle relation dans tous les cas? J'ai deux autres questions: 1. qu'est-ce que cela signifierait de ne pas utiliser le temps transformé logarithmique comme covariable? 2. (je devrais peut-être éditer la question ou en poser une nouvelle pour cela) J'ai lu que les modèles de poisson peuvent en fait être utilisés avec un y non entier aussi. Ainsi, je pourrais écrire dans R: glm (I (y / time) ~ cov.1 + ... + cov.n, poisson) et avoir les mêmes résultats que ceux que j'utilise en offset (log (time)). J'ai essayé mais j'ai des coefficients différents.
Bakaburg
La dist de Poisson est uniquement pour les entiers; vous ne devez pas entrer une fraction sur le LHS. Ne pas utiliser la transformation logarithmique signifie modéliser les taux d'événements par unité de temps exponentielle, ce qui ne sera probablement jamais sensible dans le monde réel.
gung - Rétablir Monica
1
@Bakaburg, le temps est probablement en corrélation avec eux. Ce n'est pas différent de toute autre situation de modélisation de régression. Je ne vois pas le problème ici. Vous êtes intéressé par la modélisation des taux moyens ou vous ne l'êtes pas.
gung - Rétablir Monica
1
@tatami, si vous allez utiliser le temps comme covariable (plutôt que comme décalage), vous n'avez pas à prendre le journal du temps. Cependant, si vous souhaitez comparer votre résultat à un décalage, vous devrez utiliser le journal pour les rendre comparables.
gung - Rétablir Monica
7

Les décalages temporels peuvent généralement être considérés comme votre modèle estimant la fréquence d'un événement par unité de temps, le décalage contrôlant la durée pendant laquelle vous avez observé différents sujets.

Dans les modèles de poisson, vous estimez toujours un taux que quelque chose se passe, mais vous ne pouvez jamais observer ce taux directement. Vous pouvez observer le nombre de fois qu'un événement se produit sur une certaine période de temps. Le décalage établit la connexion entre les deux concepts.

Par exemple, vous avez observé des sujets filmer des paniers pendant des périodes variables et vous avez compté le nombre de paniers réussis pour chaque sujet. Ce qui vous intéresse vraiment à quelle fréquence chaque sujet coule un panier, c'est-à-dire le nombre de paniers réussis que chaque sujet s'attend à couler chaque minute, car c'est une mesure quelque peu objective de leur compétence. Le nombre de paniers que vous avez réellement observé coulé serait alors ce taux estimé multiplié par la durée pendant laquelle vous avez observé le sujet tenter. Vous pouvez donc penser en termes d' unités de réponse, le nombre de paniers par minute .

Il est difficile de penser à une situation où vous utiliseriez le temps observé comme covariable dans une régression de poisson, car de par sa nature même, vous estimez un taux.

Par exemple, si je veux évaluer l'effet d'être américain vs européen (exemple très idiot) sur le nombre de paniers, l'ajout de temps comme covariable me permettrait d'évaluer cet effet "indépendamment" du temps écoulé depuis le tournage, n'est-ce pas? il? En outre, cela me donnerait également une estimation de l'effet du temps sur le résultat.

Voici un exemple qui, nous l'espérons, met en évidence le danger de cela. Supposons que les Américains et les Européens, en vérité, coulent le même nombre de paniers chaque minute. Mais disons que nous avons observé chaque Européen deux fois plus longtemps que chaque Américain, donc, en moyenne, nous avons observé deux fois plus de paniers pour chaque Européen.

Si nous mettons en place un modèle comprenant des paramètres à la fois pour le temps observé et un indicateur pour «est européen», alors ces deux modèles expliquent les données:

E(paniers)=2ct+0XEropean
E(paniers)=0t+2cXEropean

c

En tant que statisticien, nous voulons vraiment, dans cette situation, que notre modèle nous informe qu'il n'y a pas de différence statistique entre le taux que les Européens font des paniers et le taux que les Américains font des paniers. Mais notre modèle n'a pas réussi à le faire, et nous sommes confus.

Le problème est que nous savons quelque chose que notre modèle ne sait pas . Autrement dit, nous savons que si nous observons le même individu pendant deux fois plus de temps, que dans l'attente, ils feront deux fois plus de paniers. Puisque nous le savons, nous devons en parler à notre modèle. C'est ce que l'offset accomplit.

Peut-être que l'utilisation de la méthode de décalage est appropriée lorsque nous savons que les événements se produisent uniformément dans le temps!

Oui, mais c'est une hypothèse du modèle de poisson lui-même . De la page wikipedia sur la distribution de poisson

la distribution de Poisson, du nom du mathématicien français Siméon Denis Poisson, est une distribution de probabilité discrète qui exprime la probabilité qu'un nombre donné d'événements se produisent dans un intervalle de temps et / ou d'espace fixe si ces événements se produisent avec un taux moyen connu et indépendamment de le temps écoulé depuis le dernier événement .

Matthew Drury
la source
2
Merci pour votre réponse. Mais utiliser le temps comme covariable ne me donnerait-il pas la même réponse? Par exemple, si je veux évaluer l'effet d'être américain vs européen (exemple très stupide) sur le nombre de paniers, l'ajout de temps en tant que covariable me permettrait d'évaluer cet effet "indépendamment" du temps passé à tirer, n'est-ce pas? il? En outre, cela me donnerait également une estimation de l'effet du temps sur le résultat. Parfois, le temps n'est pas toujours important pour une variable de comptage, par exemple lorsque les événements se produisent tous au début de la période d'observation.
Bakaburg
Peut-être que l'utilisation de la méthode de décalage est appropriée lorsque nous savons que les événements se produisent uniformément dans le temps!
Bakaburg
1
@Bakaburg J'ai ajouté une tentative de réponse. J'espère que ça aide!
Matthew Drury