Comment vérifier l'hypothèse de linéarité au logit pour les variables indépendantes continues dans l'analyse de régression logistique?

13

Je suis confondu avec l'hypothèse de linéarité au logit pour les variables prédictives continues dans l'analyse de régression logistique. Avons-nous besoin de vérifier la relation linéaire lors du dépistage des prédicteurs potentiels en utilisant une analyse de régression logistique univariable?

Dans mon cas, j'utilise l'analyse de régression logistique multiple pour identifier les facteurs associés à l'état nutritionnel (résultat dichotomique) parmi les participants. Les variables continues, notamment l'âge, le score de comorbidité de Charlson, le score de l'indice de Barthel, la force de préhension, le score GDS, l'IMC, etc. Ma première étape consiste à rechercher les variables significatives à l'aide d'une régression logistique simple. Dois-je vérifier l'hypothèse de linéarité lors des analyses de régression logistique simples pour chaque variable continue? Ou devrais-je simplement le vérifier dans le modèle de régression logistique multiple final?

En outre, pour ma compréhension, nous devons transformer la variable continue non linéaire avant de l'intégrer dans le modèle. Puis-je catégoriser la variable continue non linéaire au lieu de la transformation?

Sze Lin Tan
la source
1
Vous ne devriez pas classer, mieux vaut essayer les splines!
kjetil b halvorsen

Réponses:

11

Comme je le décris en détail dans mon livre Regression Modeling Strategies (2e édition disponible le 2015-09-04, livre électronique disponible maintenant), le processus de tentative de transformation des variables avant la modélisation se heurte à des problèmes, l'un des plus importants étant la distorsion des intervalles d'erreur et de confiance de type I. La catégorisation cause des problèmes encore plus graves, en particulier le manque d'ajustement et l'arbitraire.

Au lieu de penser à cela comme un problème de "vérification du manque d'ajustement", il vaut mieux le considérer comme spécifiant un modèle qui est très susceptible de s'adapter. Une façon de procéder consiste à attribuer des paramètres aux parties du modèle qui sont susceptibles d'être fortes et pour lesquelles la linéarité n'est pas déjà connue comme étant une hypothèse raisonnable. Dans ce processus, on examine la taille réelle de l'échantillon (dans votre cas, le minimum du nombre d'événements et le nombre de non-événements) et permet la complexité dans la mesure où le contenu des informations des données le permet (en utilisant par exemple la règle 15: 1 events: parameter) du pouce). En pré-spécifiant un modèle paramétrique additif flexible, on ne se trompe que là où cela compte en omettant les interactions importantes. Les interactions doivent être prédéfinies, d'une manière générale.

Vous pouvez vérifier si la non-linéarité était nécessaire dans le modèle avec un test formel (rendu facile avec le rmspackage R ) mais la suppression de ces termes lorsqu'ils sont insignifiants crée les distorsions inférentielles que j'ai décrites ci-dessus.

Plus de détails peuvent être trouvés dans les notes de cours liées à http://biostat.mc.vanderbilt.edu/rms .

Frank Harrell
la source
Désolé de ne pas l'avoir mentionné plus tôt, mais je ne connais pas R et utilisais SPSS pour les analyses. D'après la solution fournie, cela signifie-t-il que si j'utilise la taille d'échantillon effective (15: 1), je peux inclure tous les facteurs importants (de la revue) sans vérifier leur linéarité?
Sze Lin Tan
D'après les analyses de régression logistique univariable que j'avais faites dans mon cas, l'IMC, la circonférence du mollet, la circonférence du bras mi-supérieur contribuent tous de manière significative au modèle de régression logistique simple de l'état nutritionnel (p <0,05). Mais ils se sont avérés ne pas répondre à l'hypothèse de linéarité lorsque je vérifie l'hypothèse en utilisant l'approche de Box-Tidwell (pour chaque modèle logistique simple). Je ne suis donc pas sûr de devoir procéder à une analyse de régression logistique multiple avec ces prédicteurs ou non.
Sze Lin Tan
5
Il n'est pas valide de construire des modèles sur la base d'une analyse univariable. Vous utilisez une variante pour avancer la régression pas à pas qui est connue pour causer une multitude de problèmes.
Frank Harrell
8

La régression logistique NE suppose PAS une relation linéaire entre les variables dépendantes et indépendantes. Il suppose une relation linéaire entre les cotes logarithmiques de la variable dépendante et les variables indépendantes (il s'agit principalement d'un problème avec les variables indépendantes continues.) Il existe un test appelé Box-Tidwell que vous pouvez utiliser pour cela. La commande stata est boxtid. Je ne connais pas la commande SPSS, désolé.

Cela peut être utile - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm

user114667
la source
Le lien est rompu maintenant.
Alexey Shrub
1

Je pense que nous devrions tracer des variables continues et vérifier la linéarité avant de les utiliser dans un modèle de régression. Si la linéarité semble être une hypothèse raisonnable, je pense que cela se maintiendra probablement dans le modèle de régression multivariable final dans la plupart des cas, et sinon, je pense que cela pourrait être principalement causé par des effets d'interaction que vous pouvez corriger.

Oui, la catégorisation des variables continues non linéaires est une option. Les problèmes avec cela sont que les catégories peuvent dans la plupart des cas sembler arbitraires, et de petites différences dans les scores de coupure entre les catégories peuvent conduire à des résultats différents (en particulier en ce qui concerne la signification statistique) et, selon le nombre de catégories et la taille de vos données , vous risquez de perdre des informations très précieuses dans les données.

Une autre approche consiste à utiliser un modèle additif généralisé qui est un modèle de régression qui peut être spécifié comme une régression logistique, mais dans lequel vous pouvez inclure des variables indépendantes non linéaires en tant que "fonctions plus fluides". Techniquement, ce n'est pas très compliqué en R, mais je ne connais pas les autres progiciels. Ces modèles identifieront les relations non linéaires avec les variables dépendantes, mais un inconvénient pourrait être que vous n'obtiendrez pas de nombres nets et ordonnés dans votre sortie, mais plutôt une courbe visuelle qui est testée pour la signification statistique. Cela dépend donc de votre intérêt à quantifier l'effet de la variable non linéaire sur la variable de résultat.

Enfin, vous pouvez utiliser des modèles additifs généralisés comme décrit ci-dessus pour tester les hypothèses de linéarité dans votre modèle de régression logistique, au moins si vous utilisez R.

Jetez un œil à ce livre (un domaine très différent du vôtre et du mien, mais cela n'a pas d'importance du tout): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? ie = UTF8 & qid = 1440928328 & sr = 8-1 & mots-clés = zuur + écologie

JonB
la source
Je ne connais pas R et utilisais SPSS pour les analyses. Désolé de ne pas l'avoir mentionné plus tôt. Puis-je utiliser l'approche de Box-Tidwell (en créant un terme d'interaction entre une variable continue et son propre logarithme naturel et en ajoutant le terme d'interaction au modèle) pour vérifier l'hypothèse de linéarité?
Sze Lin Tan
1

Comme je ne connais pas vos données, je ne sais pas si la combinaison de ces trois variables - la variable de base, son logarithme naturel et un terme interactif - sera un problème. Cependant, je sais que dans le passé, lorsque j'ai envisagé de combiner trois termes, je perds souvent la trace conceptuelle de ce que je mesure. Vous devez avoir une bonne idée de ce que vous mesurez ou vous aurez du mal à expliquer vos résultats. J'espère que cela pourra aider!

user114667
la source