Une explication possible serait la non-linéarité de la relation entre votre résultat et le prédicteur.
Voici un petit exemple. Nous utilisons un prédicteur uniforme sur [ - 1 , 1 ] . Le résultat, cependant, ne dépend pas linéairement du prédicteur, mais du carré du prédicteur: VRAI est plus probable pour x ≈ - 1 et x ≈ 1 , mais moins probable pour x ≈ 0 . Dans ce cas, un modèle linéaire apparaîtra insignifiant, mais couper le prédicteur en intervalles le rend significatif.
> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
>
> library(lmtest)
>
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test
Model 1: yy ~ xx
Model 2: yy ~ 1
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -676.72
2 1 -677.22 -1 0.9914 0.3194
>
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test
Model 1: yy ~ xx_cut
Model 2: yy ~ 1
#Df LogLik Df Chisq Pr(>Chisq)
1 3 -673.65
2 1 -677.22 -2 7.1362 0.02821 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Cependant, cela ne signifie pas que discrétiser le prédicteur est la meilleure approche. (Il ne l'est presque jamais.) Il vaut mieux modéliser la non-linéarité à l'aide de splines ou similaires.
Une façon possible est si la relation est nettement non linéaire. Il n'est pas possible de dire (étant donné le manque de détails) si cela explique vraiment ce qui se passe.
Vous pouvez vérifier par vous-même. Tout d'abord, vous pouvez créer un tracé de variable supplémentaire pour la variable en tant que telle, et vous pouvez également tracer les effets ajustés dans la version factorielle du modèle. Si l'explication est juste, les deux devraient voir un motif distinctement non linéaire.
la source