Les décalages peuvent être utilisés dans n'importe quel modèle de régression, mais ils sont beaucoup plus courants lorsque vous travaillez avec des données de comptage pour votre variable de réponse. Un décalage n'est qu'une variable qui est forcée d'avoir un coefficient de 1 dans le modèle. (Voir aussi cet excellent thread CV: Quand utiliser un décalage dans une régression de Poisson? )
Lorsqu'il est utilisé correctement avec les données de comptage, cela vous permettra de modéliser les taux au lieu des comptages . Si cela vous intéresse, alors c'est quelque chose à faire. Il s'agit donc du contexte dans lequel les compensations sont utilisées le plus fréquemment. Prenons un GLiM de Poisson avec un lien log (qui est le lien canonique).
ln(λ)ln(λtime)ln(λ)−ln(time)ln(λ)ln(λ)=β0+β1X=β0+β1X⇒=β0+β1X=β0+β1X+1×ln(time)≠=β0+β1X+β2×ln(time)when β2≠1(counts)(rates)(still rates)(counts again)
(Comme vous pouvez le voir, la clé pour utiliser un décalage correctement est de faire le décalage, pas t i m e .) ln(time)t i m e
Lorsque le coefficient sur n'est pas 1 , vous ne modélisez plus les taux. Mais comme β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) offre une flexibilité beaucoup plus grande pour ajuster les données, les modèles qui n'utilisent pas ln ( t i m e ) comme décalage s'adapteront généralement mieux (bien qu'ils puissent aussi overfit). ln( t i m e )1β2∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ )ln( t i m e )
La question de savoir si vous devez modéliser le nombre ou les taux dépend vraiment de votre question de fond. Vous devez modéliser celui qui correspond à ce que vous voulez savoir.
En ce qui concerne ce que cela pourrait signifier pour que ne soit pas 1 , considérons un exemple où le temps n'est pas la variable en question. Imaginez étudier le nombre de complications chirurgicales dans différents hôpitaux. Un hôpital a signalé beaucoup plus de complications chirurgicales, mais ils pourraient prétendre que la comparaison n'est pas juste car ils font beaucoup plus de chirurgies. Vous décidez donc d'essayer de contrôler cela. Vous pouvez simplement utiliser le journal du nombre de chirurgies comme décalage, ce qui vous permettrait d'étudier le taux de complications par chirurgie. Vous pouvez également utiliser le journal du nombre de chirurgies comme une autre covariable. Disons que le coefficient est significativement différent de 1 . Si β 2 > 1β211β2> 1, alors les hôpitaux qui font plus de chirurgies ont un taux de complications plus élevé (peut-être parce qu'ils se précipitent pour faire plus). Si , les hôpitaux qui en font le plus ont moins de complications par chirurgie (peut-être ont-ils les meilleurs médecins, font-en plus et font-ils mieux). β2< 1
Voir comment cela pourrait se produire si la variable en question était le temps est un peu plus compliqué. La distribution de Poisson provient du processus de Poisson , dans lequel le temps entre les événements est distribué de façon exponentielle, et il existe donc un lien naturel avec l'analyse de survie. Dans l'analyse de la survie, le temps avant les événements n'est souvent pas distribué comme une exponentielle, mais le risque de base peut devenir plus ou moins grand avec le temps. Considérez donc un cas où vous modélisez le nombre d'événements qui se produisent à la suite d'un point de départ naturel. Si , cela signifie que le rythme des événements s'accélère, alors que si β 2 < 1β2> 1β2< 1, cela signifie que le rythme des événements ralentit.
Pour un exemple concret de la première, imaginez un scan qui compte le nombre de cellules cancéreuses une période de temps après l'ablation chirurgicale de la tumeur initiale. Pour certains patients, plus de temps s'est écoulé depuis la chirurgie et vous vouliez en tenir compte. Puisqu'une fois qu'un cancer a repris pied, il commencera à croître de façon exponentielle, le taux augmentera au fil du temps depuis la chirurgie sans traitement supplémentaire.
Pour un exemple concret de ce dernier, considérons le nombre de personnes décédées d'une épidémie pour laquelle nous n'avons aucun traitement. Au début, beaucoup de gens meurent parce qu'ils étaient plus sensibles à cette maladie, ou avaient déjà un système immunitaire affaibli, etc. Au fil du temps, comme la population de personnes restantes est moins sensible à la maladie, le taux diminuera. (Désolé, cet exemple est si morbide.)
Les décalages temporels peuvent généralement être considérés comme votre modèle estimant la fréquence d'un événement par unité de temps, le décalage contrôlant la durée pendant laquelle vous avez observé différents sujets.
Dans les modèles de poisson, vous estimez toujours un taux que quelque chose se passe, mais vous ne pouvez jamais observer ce taux directement. Vous pouvez observer le nombre de fois qu'un événement se produit sur une certaine période de temps. Le décalage établit la connexion entre les deux concepts.
Par exemple, vous avez observé des sujets filmer des paniers pendant des périodes variables et vous avez compté le nombre de paniers réussis pour chaque sujet. Ce qui vous intéresse vraiment à quelle fréquence chaque sujet coule un panier, c'est-à-dire le nombre de paniers réussis que chaque sujet s'attend à couler chaque minute, car c'est une mesure quelque peu objective de leur compétence. Le nombre de paniers que vous avez réellement observé coulé serait alors ce taux estimé multiplié par la durée pendant laquelle vous avez observé le sujet tenter. Vous pouvez donc penser en termes d' unités de réponse, le nombre de paniers par minute .
Il est difficile de penser à une situation où vous utiliseriez le temps observé comme covariable dans une régression de poisson, car de par sa nature même, vous estimez un taux.
Voici un exemple qui, nous l'espérons, met en évidence le danger de cela. Supposons que les Américains et les Européens, en vérité, coulent le même nombre de paniers chaque minute. Mais disons que nous avons observé chaque Européen deux fois plus longtemps que chaque Américain, donc, en moyenne, nous avons observé deux fois plus de paniers pour chaque Européen.
Si nous mettons en place un modèle comprenant des paramètres à la fois pour le temps observé et un indicateur pour «est européen», alors ces deux modèles expliquent les données:
En tant que statisticien, nous voulons vraiment, dans cette situation, que notre modèle nous informe qu'il n'y a pas de différence statistique entre le taux que les Européens font des paniers et le taux que les Américains font des paniers. Mais notre modèle n'a pas réussi à le faire, et nous sommes confus.
Le problème est que nous savons quelque chose que notre modèle ne sait pas . Autrement dit, nous savons que si nous observons le même individu pendant deux fois plus de temps, que dans l'attente, ils feront deux fois plus de paniers. Puisque nous le savons, nous devons en parler à notre modèle. C'est ce que l'offset accomplit.
Oui, mais c'est une hypothèse du modèle de poisson lui-même . De la page wikipedia sur la distribution de poisson
la source