Mes prédictions provenant d'un modèle de régression logistique (glm dans R) ne sont pas limitées entre 0 et 1 comme je m'y attendais. Ma compréhension de la régression logistique est que vos paramètres d'entrée et de modèle sont combinés linéairement et la réponse est transformée en probabilité à l'aide de la fonction de lien logit. Étant donné que la fonction logit est limitée entre 0 et 1, je m'attendais à ce que mes prédictions soient limitées entre 0 et 1.
Cependant, ce n'est pas ce que je vois lorsque j'implémente une régression logistique dans R:
data(iris)
iris.sub <- subset(iris, Species%in%c("versicolor","virginica"))
model <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub,
family = binomial(link = "logit"))
hist(predict(model))
Si quoi que ce soit, la sortie de prédire (modèle) me semble normale. Quelqu'un peut-il m'expliquer pourquoi les valeurs que j'obtiens ne sont pas des probabilités?
Réponses:
La
predict.glm
méthode par défaut renvoie les prédicteurs à l'échelle du prédicteur linéaire. C'est-à-dire qu'ils n'ont pas encore utilisé la fonction de lien.Essayer
hist(predict(model, type = "response"))
au lieu
la source