Régression logistique - Préoccupations / pièges de la multicolinéarité

16

Dans la régression logistique, est-il nécessaire de se préoccuper autant de la multicolinéarité que dans une régression OLS directe?

Par exemple, avec une régression logistique, où la multicolinéarité existe, auriez-vous besoin d'être prudent (comme vous le feriez dans la régression OLS) en prenant des déductions à partir des coefficients bêta?

Pour la régression OLS, une "correction" à une multicolinéarité élevée est la régression de crête, existe-t-il quelque chose comme ça pour la régression logistique? En outre, supprimer des variables ou combiner des variables.

Quelles approches sont raisonnables pour réduire les effets de la multicolinéarité dans une régression logistique? Sont-ils essentiellement les mêmes que l'OLS?

(Remarque: ce n'est pas dans le but d'une expérience conçue)

Brandon Bertelsen
la source

Réponses:

16

Tous les mêmes principes concernant la multicolinéarité s'appliquent à la régression logistique comme ils le font pour l'OLS. Les mêmes diagnostics évaluant la multicolinéarité peuvent être utilisés (par exemple VIF, numéro de condition, régressions auxiliaires.), Et les mêmes techniques de réduction de dimension peuvent être utilisées (telles que la combinaison de variables via l'analyse des composants principaux).

Cette réponse de chl vous mènera à quelques ressources et packages R pour ajuster les modèles logistiques pénalisés (ainsi qu'une bonne discussion sur ces types de procédures de régression pénalisées). Mais certains de vos commentaires sur les «solutions» à la multicolinéarité me déconcertent un peu. Si vous ne vous souciez que d'estimer des relations pour des variables qui ne sont pas colinéaires, ces «solutions» peuvent convenir, mais si vous êtes intéressé par l'estimation des coefficients de variables colinéaires, ces techniques ne résolvent pas votre problème. Bien que le problème de la multicolinéarité soit technique en ce que votre matrice de variables de prédicteur ne peut pas être inversée, il a un analogue logique en ce que vos prédicteurs ne sont pas indépendants et leurs effets ne peuvent pas être identifiés de manière unique.

Andy W
la source
2
(+1) Oui, il existe des versions pénalisées de régression logistique (ou plus généralement des GLM), voir quelques références ici: stats.stackexchange.com/questions/4272/… .
chl
@chl, merci. J'ai mis à jour pour créer un lien vers votre réponse précédente.
Andy W
Thx aussi. Ce n'était qu'un commentaire sur votre réponse déjà excellente.
chl