Ma question révèle ma mauvaise compréhension de la régression de Poisson et des GLM en général. Voici quelques fausses données pour illustrer ma question:
### some fake data
x=c(1:14)
y=c(0, 1, 2, 3, 1, 4, 9, 18, 23, 31, 20, 25, 37, 45)
Quelques fonctions personnalisées pour retourner psuedo-R2:
### functions of pseudo-R2
psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}
predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}
Ajustement de quatre modèles: OLS, GLM gaussien avec lien d'identité, Poisson GLM avec lien log, Poisson GLM avec lien d'identité
#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)
summary(mdl.ols)$r.squared
predR2(y, pred.ols)
#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)
psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)
#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log)) #transform
psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)
#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)
psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)
Enfin, tracez les prédictions:
#### Plot the Fit
plot(x, y)
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")
J'ai 2 questions:
Il apparaît que les coefficients et prédictions issus de l'OLS et du GLM gaussien avec lien d'identité sont exactement les mêmes. Est-ce toujours vrai?
Je suis très surpris que les estimations et les prévisions de l'OLS soient très différentes du GLM de Poisson avec lien d' identité . Je pensais que les deux méthodes essayeraient d'estimer E (Y | X). À quoi ressemble la fonction de vraisemblance lorsque j'utilise le lien d'identité pour Poisson?
la source
Réponses:
Oui, c'est la même chose. MLE pour un gaussien est le moins de carrés, donc quand vous faites un GLM gaussien avec un lien d'identité, vous faites de l'OLS.
a) " Je pensais que les deux méthodes essaieraient d'estimer E (Y | X) "
En effet, ils le font, mais la manière dont l'espérance conditionnelle est estimée en fonction des données n'est pas la même. Même si nous ignorons la distribution (et donc comment les données entrent dans la vraisemblance) et pensons au GLM uniquement en termes de moyenne et de variance (comme s'il ne s'agissait que d'une régression pondérée), la variance d'un Poisson augmente avec la moyenne, donc les poids relatifs des observations seraient différents.
b) "À quoi ressemble la fonction de vraisemblance lorsque j'utilise le lien d'identité pour Poisson? "
la source