Est-il approprié de faire une régression logistique où les variables dépendantes et indépendantes sont binaires? par exemple, la variable dépendante est 0 et 1 et les prédicteurs sont des variables codées par contraste -1 et 1?
14
Il n'y a aucune raison de ne pas le faire, mais deux mises en garde:
Gardez une trace prudente lors de l'analyse de ce qui est lequel. Dans les grands projets, il peut être facile de se perdre et de produire des résultats erronés.
Si vous choisissez de rapporter des estimations de régression, plutôt que des rapports de cotes, expliquez clairement votre schéma de codage dans votre rapport , afin que les lecteurs ne produisent pas eux-mêmes des rapports d' opinion inexacts en supposant qu'ils étaient tous les deux codés 0,1.
Cela peut sembler basique, mais j'ai vu les deux problèmes en faire des articles publiés.
Pour plus de clarté: le terme "binaire" est généralement réservé au codage 1 vs 0 uniquement. Un mot plus général adapté à tout codage à 2 valeurs est "dichotomique". Les prédicteurs dichotomiques sont bien sûr les bienvenus dans la régression logistique, comme dans la régression linéaire, et, comme ils n'ont que 2 valeurs, cela ne fait aucune différence de les saisir comme facteurs ou comme covariables.
la source
En règle générale, cela aide à l'interprétation si vous codez vos prédicteurs 0-1, mais à part cela (et en notant que ce n'est pas obligatoire), il n'y a rien de mal à cela. Il existe d'autres approches (basées sur des tables de contingence), mais si je me souviens bien, elles s'avèrent être équivalentes à (une certaine forme de) régression logistique.
Bref: je ne vois aucune raison de ne pas le faire.
la source
De plus, si vous avez plus de deux prédicteurs, il est plus probable qu'il y aurait un problème de multi-colinéarité même pour une régression logistique ou multiple. Cependant, il n'y a aucun mal à utiliser la régression logistique avec toutes les variables binaires (c'est-à-dire codées (0,1)).
la source