Régression logistique et point d'inflexion

12

Nous avons des données avec un résultat binaire et quelques covariables. J'ai utilisé la régression logistique pour modéliser les données. Juste une simple analyse, rien d'extraordinaire. La sortie finale est supposée être une courbe dose-réponse où nous montrons comment la probabilité change pour une covariable spécifique. Quelque chose comme ça:

entrez la description de l'image ici

Nous avons reçu des critiques d'un examinateur interne (pas un simple statisticien) pour avoir choisi la régression logistique. La régression logistique suppose (ou définit) que le point d'inflexion de la courbe en S sur l'échelle de probabilité est à la probabilité 0,5. Il a fait valoir qu'il n'y aurait aucune raison de supposer que le point d'inflexion était effectivement à la probabilité 0,5 et que nous devrions choisir un modèle de régression différent qui permet au point d'inflexion de varier de telle sorte que la position réelle soit déterminée par les données.

Au début, j'ai été pris au dépourvu par son argument, car je n'ai jamais pensé à ce point. Je n'ai eu aucun argument pour expliquer pourquoi il serait justifié de supposer que le point d'inflexion est à 0,5. Après avoir fait quelques recherches, je n'ai toujours pas de réponse à cette question.

Je suis tombé sur une régression logistique à 5 paramètres, pour laquelle le point d'inflexion est un paramètre supplémentaire, mais il semble que ce modèle de régression soit généralement utilisé lors de la production de courbes dose-réponse avec un résultat continu. Je ne sais pas si et comment il peut être étendu aux variables de réponse binaires.

Je suppose que ma question principale est pourquoi ou quand il est OK de supposer que le point d'inflexion pour une régression logistique est à 0,5? Est-ce même important? Je n'ai jamais vu personne adapter un modèle de régression logistique et discuter explicitement de la question du point d'inflexion. Existe-t-il des alternatives pour créer une courbe dose-réponse où le point d'inflexion n'est pas nécessairement à 0,5?

Juste pour être complet, le code R pour générer l'image ci-dessus:

dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")

Modifier 1:

Juste pour ajouter à ce que Scortchi a dit dans l'un des commentaires: Le critique a en effet soutenu que, biologiquement, il pourrait être plus probable que le changement de courbure se produise avant 0,5. Par conséquent, sa résistance contre l'hypothèse que le point d'inflexion est à 0,5.

Modifier 2:

En réaction au commentaire de Frank Harrell:

À titre d'exemple, j'ai modifié mon modèle ci-dessus pour inclure un terme quadratique et un terme cubique dans gre(qui est la "dose" dans cet exemple).

logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+  gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")

entrez la description de l'image ici

Malgré le fait qu'il n'est probablement pas significatif d'ajouter un terme quadratique et un greterme cubique dans ce cas, nous voyons que la forme de la courbe dose-réponse a changé. En effet, nous avons maintenant deux points d'inflexion à environ 0,25 et près de 0,7.

Francis
la source
2
N'est-ce pas la même chose que de demander à étudier les relations non linéaires des prédicteurs avec les log-cotes de réponse?
Scortchi - Réintégrer Monica

Réponses:

8

Comme évoqué par @scortchi, le critique opérait sous la fausse impression qu'il n'était pas possible de modéliser les effets non linéaires des prédicteurs sur l'échelle logit dans le contexte de la régression logistique. Le modèle original a rapidement supposé la linéarité de tous les prédicteurs. En assouplissant l'hypothèse de linéarité, en utilisant par exemple des splines cubiques restreintes (splines naturelles), la forme entière de la courbe est flexible et le point d'inflexion n'est plus un problème. S'il n'y avait eu qu'un seul prédicteur et s'il avait été développé à l'aide d'une spline de régression, on pourrait dire que le modèle logistique ne fait que des hypothèses de régularité et d'indépendance des observations.

Frank Harrell
la source
Je dois admettre que je ne suis pas très familier avec la régression spline. Comment pourrais-je faire cela avec la régression logistique (dans R). J'ai modifié mon article d'origine (modifier 2) pour inclure des termes polynomiaux dans le prédicteur. Puis-je utiliser cela comme alternative au lissage des splines. Bien sûr, je n'ai pas la même flexibilité que j'aurais avec des splines.
Francis
1
@Franco: Les stratégies de modélisation de régression de Frank Harrell - livre , site Web , package R - devraient vous aider. Une brève discussion de certains des avantages des splines de régression est ici ; mais vous avez bien sûr raison, les polynômes sont une alternative.
Scortchi - Réintégrer Monica
4

Il me semble que le critique cherchait juste quelque chose à dire. Avant d'examiner de telles caractéristiques de la spécification comme le point d'inflexion implicite, il y a une tonne d'hypothèses que nous avons faites, afin d'arriver à un modèle estimable. Tout pourrait être questionné et débattu - l'utilisation de la fonction logistique elle-même étant une cible primaire possible: qui nous a dit que la distribution conditionnelle du terme d'erreur sous-jacent est logistique? Personne.

La question est donc: que signifie le changement de courbure? Quelle importance pour le phénomène réel étudié, peut-être le moment auquel ce changement de courbure se produit, de sorte que nous envisagerions de le rendre "axé sur les données"? S'éloigner davantage du principe de parcimonie?

La question n'est pas "pourquoi le point d'inflexion devrait être à 0,5?" Mais "comment cela peut-il être trompeur pour nos conclusions s'il est laissé à 0,5?".

Alecos Papadopoulos
la source
2
Cela semble un peu charitable. Nous ne savons pas que le critique n'avait pas de bonnes raisons de contester cette hypothèse plutôt que d'autres qu'il aurait pu contester. Laisser de côté une façon étrange de l'exprimer en termes de points d'inflexion, et une idée fausse possible sur la régression logistique, et il demande essentiellement pourquoi le modèle laisse la courbe se déplacer et s'étirer mais pas se plier, ce qui pourrait bien mériter une réponse.
Scortchi - Réintégrer Monica
@Scortchi "façon étrange de le dire" ... "une idée fausse possible sur la régression logistique" ... Si c'est ce qu'il faut pour rationaliser la critique du critique, il ne devrait pas avoir revu le papier après tout.
Alecos Papadopoulos
1
Comme avec @Scortchi, je trouve cela un peu trop net. Beaucoup des personnes les plus actives ici ont des antécédents dans diverses sciences plutôt que dans les statistiques traditionnelles. Être un statisticien, pur ou non, n'est ni essentiel ni suffisant pour donner de bons conseils (bien que dans presque tous les cas, cela aidera manifestement).
Nick Cox
@Nick Cox J'accepte la "netteté", et je viens de supprimer ma dernière phrase, en signe de consensus. Je veux dire que remettre en question de manière générale les hypothèses d'un modèle n'a pas de valeur - les modèles sont toujours faux. Donc, SI la probabilité que la courbure change soit en quelque sorte critique pour le phénomène du monde réel à l'étude, l'examinateur avait tout à fait raison de demander que ce point devienne basé sur les données. Mais si le critique vient de commenter "pourquoi à p = 0,5 et pas ailleurs?", Ce commentaire n'est pas constructif.
Alecos Papadopoulos
2
Merci pour cela. Je suis d'accord avec votre position générale: (a) discussion sur le bien-fondé de différentes approches et (b) discussion sur la façon dont nous devrions discuter de ces deux éléments sont un jeu équitable. Les commentaires sur des individus ou même des groupes ne sont en revanche généralement pas utiles (même si je franchis parfois la ligne avec exaspération ...).
Nick Cox
0

Dans mho, la régression logit est un choix raisonnable pour la dose-réponse. Bien sûr, vous pouvez utiliser probit, log-log, c-log-log link et comparer la qualité de l'ajustement (DEV, BIC, CAIC, etc.). Mais la régression logit la plus simple donne une évaluation formelle confortable du point d'inflexion LD50 = -b0 / b1. Nous nous souvenons qu'il s'agit d'un point spécifique, pour lequel nous obtenons l'incertitude minimale (cf., LD16, LD84, et tous les autres auront un IC plus large, voir "Probit analysis" de Finney, 1947, 1977). D'après mon expérience, toujours (?) Il était préférable d'utiliser le logarithme de la dose, puis de simplement convertir l'IC à 95% dans l'échelle d'origine. Quelle est la nature des autres covariables du modèle? Je fais allusion à la possibilité d'utiliser une approche multimodèle ... Certes, les Splines sont flexibles, mais les paramètres formels sont interprétés plus facilement!

Voir http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm

Ivan Kshnyasev
la source
0

Le point d'inflexion 0,5 est une petite partie d'une question plus large: l'équation logistique est par construction symétrique. Et dans la plupart de ses dérivations, l'effet modélisé a une raison d'être symétrique. Par exemple, comme un joueur gagne, l'autre joueur perd, ou l'effet responsable de la saturation est le même effet physique responsable de la croissance initiale, etc. comme la main droite se comporte ou pour toute autre raison le problème est symétrique alors vous avez votre justification.

sinon, le prochain modèle le plus simple est peut-être l'équation logistique généralisée. il a plus de paramètres et vous voudrez peut-être ajouter une contrainte afin qu'ils ne soient pas tous des paramètres libres. c'est probablement plus souhaitable que les kludges que vous avez ajoutés parce que ceux-ci ajoutent des étagères où le premier dérivé oscille d'avant en arrière - ce genre de chose a tendance à créer de faux points d'équilibre local fictifs si vous essayez d'optimiser une certaine valeur d'attente de cette Distribution. la forme généralisée brisera la symétrie mais de manière fluide.

Charlie Strauss
la source