Régression de Poisson vs régression par les moindres carrés du nombre de journaux?

21

Une régression de Poisson est un GLM avec une fonction log-link.

Une autre façon de modéliser les données de comptage non distribuées normalement est de prétraiter en prenant le journal (ou plutôt, le journal (1 + compte) pour gérer les 0). Si vous effectuez une régression des moindres carrés sur les réponses du nombre de journaux, est-ce lié à une régression de Poisson? Peut-il gérer des phénomènes similaires?

Brendan OConnor
la source
6
Comment prévoyez-vous de prendre les logarithmes de tous les comptes qui sont nuls?
whuber
3
Certainement pas équivalent. Un moyen facile de voir cela est de regarder ce qui se passerait si vous observiez un dénombrement nul. (Commentaire créé avant de voir le commentaire de @ whuber. Apparemment, cette page ne s'est pas actualisée correctement sur mon navigateur.)
Cardinal
OK, je devrais évidemment dire, connectez-vous (1 + compte). Évidemment pas équivalent, mais se demandant s'il y avait une relation, ou s'ils peuvent gérer des phénomènes similaires.
Brendan OConnor
1
Il y a une discussion utile de cette question ici: blog.stata.com/2011/08/22/…
Michael Bishop

Réponses:

22

D'une part, dans une régression de Poisson, le côté gauche de l'équation du modèle est le logarithme du compte attendu: .log(E[Y|x])

En revanche, dans un modèle linéaire "standard", le côté gauche est la valeur attendue de la variable de réponse normale: . En particulier, la fonction de liaison est la fonction d'identité.E[Y|x]

Maintenant, disons que est une variable de Poisson et que vous avez l'intention de la normaliser en prenant le log: Y = log ( Y ) . Étant donné que Y est censé être normal, vous prévoyez d'adapter le modèle linéaire standard pour lequel le côté gauche est E [ Y | x ] = E [ log ( Y ) | x ] . Mais, en général, E [ log ( Y ) | x ] log ( EYY=log(Y)YE[Y|x]=E[log(Y)|x] . Par conséquent, ces deux approches de modélisation sont différentes.E[log(Y)|x]log(E[Y|x])

ocram
la source
6
En fait, àmoins que P ( Y = f ( X ) | X ) = 1 pour unefonction mesurable f σ ( X ) f , c'est-à-dire Y est entièrement déterminée par X . E(log(Y)|X)log(E(Y|X)) P(Y=f(X)|X)=1σ(X)fYX
cardinal
@cardinal. Très bien mis.
suncoolsu
9

Je vois deux différences importantes.

Premièrement, les valeurs prédites (sur l'échelle d'origine) se comportent différemment; dans les moindres carrés loglinaires, ils représentent des moyennes géométriques conditionnelles; dans le modèle log-poisson, les représentent des moyennes conditionnelles. Étant donné que les données de ce type d'analyse sont souvent biaisées à droite, la moyenne géométrique conditionnelle sous-estimera la moyenne conditionnelle.

Une deuxième différence est la distribution implicite: lognormale contre poisson. Cela concerne la structure d'hétéroscédasticité des résidus: variance résiduelle proportionnelle aux valeurs attendues au carré (lognormal) versus variance résiduelle proportionnelle à la valeur attendue (Poisson).

Ludo
la source
-1

Une différence évidente est que la régression de Poisson donnera des nombres entiers sous forme de prédictions ponctuelles tandis que la régression linéaire log-count peut produire des nombres non entiers.

Galit Shmueli
la source
12
Comment ça marche? Le GLM n'évalue-t-il pas les attentes qui ne sont pas nécessairement intégrales?
whuber
1
C'est faux. Mécaniquement, les régressions de poisson sont parfaitement capables de gérer des non entiers. Les erreurs standard ne seront pas distribuées poisson, mais vous pouvez simplement utiliser des erreurs standard robustes à la place.
Matthew