Nous avons des données avec un résultat binaire et quelques covariables. J'ai utilisé la régression logistique pour modéliser les données. Juste une simple analyse, rien d'extraordinaire. La sortie finale est supposée être une courbe dose-réponse où nous montrons comment la probabilité change pour une covariable spécifique. Quelque chose comme ça:
Nous avons reçu des critiques d'un examinateur interne (pas un simple statisticien) pour avoir choisi la régression logistique. La régression logistique suppose (ou définit) que le point d'inflexion de la courbe en S sur l'échelle de probabilité est à la probabilité 0,5. Il a fait valoir qu'il n'y aurait aucune raison de supposer que le point d'inflexion était effectivement à la probabilité 0,5 et que nous devrions choisir un modèle de régression différent qui permet au point d'inflexion de varier de telle sorte que la position réelle soit déterminée par les données.
Au début, j'ai été pris au dépourvu par son argument, car je n'ai jamais pensé à ce point. Je n'ai eu aucun argument pour expliquer pourquoi il serait justifié de supposer que le point d'inflexion est à 0,5. Après avoir fait quelques recherches, je n'ai toujours pas de réponse à cette question.
Je suis tombé sur une régression logistique à 5 paramètres, pour laquelle le point d'inflexion est un paramètre supplémentaire, mais il semble que ce modèle de régression soit généralement utilisé lors de la production de courbes dose-réponse avec un résultat continu. Je ne sais pas si et comment il peut être étendu aux variables de réponse binaires.
Je suppose que ma question principale est pourquoi ou quand il est OK de supposer que le point d'inflexion pour une régression logistique est à 0,5? Est-ce même important? Je n'ai jamais vu personne adapter un modèle de régression logistique et discuter explicitement de la question du point d'inflexion. Existe-t-il des alternatives pour créer une courbe dose-réponse où le point d'inflexion n'est pas nécessairement à 0,5?
Juste pour être complet, le code R pour générer l'image ci-dessus:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Modifier 1:
Juste pour ajouter à ce que Scortchi a dit dans l'un des commentaires: Le critique a en effet soutenu que, biologiquement, il pourrait être plus probable que le changement de courbure se produise avant 0,5. Par conséquent, sa résistance contre l'hypothèse que le point d'inflexion est à 0,5.
Modifier 2:
En réaction au commentaire de Frank Harrell:
À titre d'exemple, j'ai modifié mon modèle ci-dessus pour inclure un terme quadratique et un terme cubique dans gre
(qui est la "dose" dans cet exemple).
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
Malgré le fait qu'il n'est probablement pas significatif d'ajouter un terme quadratique et un gre
terme cubique dans ce cas, nous voyons que la forme de la courbe dose-réponse a changé. En effet, nous avons maintenant deux points d'inflexion à environ 0,25 et près de 0,7.
Réponses:
Comme évoqué par @scortchi, le critique opérait sous la fausse impression qu'il n'était pas possible de modéliser les effets non linéaires des prédicteurs sur l'échelle logit dans le contexte de la régression logistique. Le modèle original a rapidement supposé la linéarité de tous les prédicteurs. En assouplissant l'hypothèse de linéarité, en utilisant par exemple des splines cubiques restreintes (splines naturelles), la forme entière de la courbe est flexible et le point d'inflexion n'est plus un problème. S'il n'y avait eu qu'un seul prédicteur et s'il avait été développé à l'aide d'une spline de régression, on pourrait dire que le modèle logistique ne fait que des hypothèses de régularité et d'indépendance des observations.
la source
Il me semble que le critique cherchait juste quelque chose à dire. Avant d'examiner de telles caractéristiques de la spécification comme le point d'inflexion implicite, il y a une tonne d'hypothèses que nous avons faites, afin d'arriver à un modèle estimable. Tout pourrait être questionné et débattu - l'utilisation de la fonction logistique elle-même étant une cible primaire possible: qui nous a dit que la distribution conditionnelle du terme d'erreur sous-jacent est logistique? Personne.
La question est donc: que signifie le changement de courbure? Quelle importance pour le phénomène réel étudié, peut-être le moment auquel ce changement de courbure se produit, de sorte que nous envisagerions de le rendre "axé sur les données"? S'éloigner davantage du principe de parcimonie?
La question n'est pas "pourquoi le point d'inflexion devrait être à 0,5?" Mais "comment cela peut-il être trompeur pour nos conclusions s'il est laissé à 0,5?".
la source
Dans mho, la régression logit est un choix raisonnable pour la dose-réponse. Bien sûr, vous pouvez utiliser probit, log-log, c-log-log link et comparer la qualité de l'ajustement (DEV, BIC, CAIC, etc.). Mais la régression logit la plus simple donne une évaluation formelle confortable du point d'inflexion LD50 = -b0 / b1. Nous nous souvenons qu'il s'agit d'un point spécifique, pour lequel nous obtenons l'incertitude minimale (cf., LD16, LD84, et tous les autres auront un IC plus large, voir "Probit analysis" de Finney, 1947, 1977). D'après mon expérience, toujours (?) Il était préférable d'utiliser le logarithme de la dose, puis de simplement convertir l'IC à 95% dans l'échelle d'origine. Quelle est la nature des autres covariables du modèle? Je fais allusion à la possibilité d'utiliser une approche multimodèle ... Certes, les Splines sont flexibles, mais les paramètres formels sont interprétés plus facilement!
Voir http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm
la source
Le point d'inflexion 0,5 est une petite partie d'une question plus large: l'équation logistique est par construction symétrique. Et dans la plupart de ses dérivations, l'effet modélisé a une raison d'être symétrique. Par exemple, comme un joueur gagne, l'autre joueur perd, ou l'effet responsable de la saturation est le même effet physique responsable de la croissance initiale, etc. comme la main droite se comporte ou pour toute autre raison le problème est symétrique alors vous avez votre justification.
sinon, le prochain modèle le plus simple est peut-être l'équation logistique généralisée. il a plus de paramètres et vous voudrez peut-être ajouter une contrainte afin qu'ils ne soient pas tous des paramètres libres. c'est probablement plus souhaitable que les kludges que vous avez ajoutés parce que ceux-ci ajoutent des étagères où le premier dérivé oscille d'avant en arrière - ce genre de chose a tendance à créer de faux points d'équilibre local fictifs si vous essayez d'optimiser une certaine valeur d'attente de cette Distribution. la forme généralisée brisera la symétrie mais de manière fluide.
la source