Une régression de Poisson est un GLM avec une fonction log-link.
Une autre façon de modéliser les données de comptage non distribuées normalement est de prétraiter en prenant le journal (ou plutôt, le journal (1 + compte) pour gérer les 0). Si vous effectuez une régression des moindres carrés sur les réponses du nombre de journaux, est-ce lié à une régression de Poisson? Peut-il gérer des phénomènes similaires?
regression
poisson-distribution
generalized-linear-model
Brendan OConnor
la source
la source
Réponses:
D'une part, dans une régression de Poisson, le côté gauche de l'équation du modèle est le logarithme du compte attendu: .Journal( E[ Oui| x])
En revanche, dans un modèle linéaire "standard", le côté gauche est la valeur attendue de la variable de réponse normale: . En particulier, la fonction de liaison est la fonction d'identité.E[ Oui| x]
Maintenant, disons que est une variable de Poisson et que vous avez l'intention de la normaliser en prenant le log: Y ′ = log ( Y ) . Étant donné que Y ′ est censé être normal, vous prévoyez d'adapter le modèle linéaire standard pour lequel le côté gauche est E [ Y ′ | x ] = E [ log ( Y ) | x ] . Mais, en général, E [ log ( Y ) | x ] ≠ log ( EOui Oui′= journal( O) Oui′ E[ Oui′| x]= E[ journal( O) | x ] . Par conséquent, ces deux approches de modélisation sont différentes.E[ journal( O) | x ] ≠ journal( E[ Oui| x])
la source
Je vois deux différences importantes.
Premièrement, les valeurs prédites (sur l'échelle d'origine) se comportent différemment; dans les moindres carrés loglinaires, ils représentent des moyennes géométriques conditionnelles; dans le modèle log-poisson, les représentent des moyennes conditionnelles. Étant donné que les données de ce type d'analyse sont souvent biaisées à droite, la moyenne géométrique conditionnelle sous-estimera la moyenne conditionnelle.
Une deuxième différence est la distribution implicite: lognormale contre poisson. Cela concerne la structure d'hétéroscédasticité des résidus: variance résiduelle proportionnelle aux valeurs attendues au carré (lognormal) versus variance résiduelle proportionnelle à la valeur attendue (Poisson).
la source
Une différence évidente est que la régression de Poisson donnera des nombres entiers sous forme de prédictions ponctuelles tandis que la régression linéaire log-count peut produire des nombres non entiers.
la source