Comprendre les prédictions de la régression logistique

13

Mes prédictions provenant d'un modèle de régression logistique (glm dans R) ne sont pas limitées entre 0 et 1 comme je m'y attendais. Ma compréhension de la régression logistique est que vos paramètres d'entrée et de modèle sont combinés linéairement et la réponse est transformée en probabilité à l'aide de la fonction de lien logit. Étant donné que la fonction logit est limitée entre 0 et 1, je m'attendais à ce que mes prédictions soient limitées entre 0 et 1.

Cependant, ce n'est pas ce que je vois lorsque j'implémente une régression logistique dans R:

data(iris)
iris.sub <- subset(iris, Species%in%c("versicolor","virginica"))
model    <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, 
                family = binomial(link = "logit"))
hist(predict(model))

entrez la description de l'image ici

Si quoi que ce soit, la sortie de prédire (modèle) me semble normale. Quelqu'un peut-il m'expliquer pourquoi les valeurs que j'obtiens ne sont pas des probabilités?

Adrian
la source
3
La réponse de Corone ci-dessous couvre très bien les détails. La figure originale que vous avez ci-dessus présente les valeurs de log-odds sur l'axe des x, qui peuvent être mathématiquement transformées en probabilités (c'est-à-dire selon la réponse de Corone, en passant par la fonction de lien.)
James Stanley

Réponses:

16

La predict.glmméthode par défaut renvoie les prédicteurs à l'échelle du prédicteur linéaire. C'est-à-dire qu'ils n'ont pas encore utilisé la fonction de lien.

Essayer

hist(predict(model, type = "response"))

au lieu

entrez la description de l'image ici

Corone
la source
4
Vous avez fait un excellent travail en maîtrisant nos capacités de balisage et d'illustration en peu de temps: cette réponse en est un bel exemple. Bien joué!
whuber