Régression logistique avec variables binaires dépendantes et indépendantes

14

Est-il approprié de faire une régression logistique où les variables dépendantes et indépendantes sont binaires? par exemple, la variable dépendante est 0 et 1 et les prédicteurs sont des variables codées par contraste -1 et 1?

au dessus
la source

Réponses:

6

Il n'y a aucune raison de ne pas le faire, mais deux mises en garde:

  1. Gardez une trace prudente lors de l'analyse de ce qui est lequel. Dans les grands projets, il peut être facile de se perdre et de produire des résultats erronés.

  2. Si vous choisissez de rapporter des estimations de régression, plutôt que des rapports de cotes, expliquez clairement votre schéma de codage dans votre rapport , afin que les lecteurs ne produisent pas eux-mêmes des rapports d' opinion inexacts en supposant qu'ils étaient tous les deux codés 0,1.

Cela peut sembler basique, mais j'ai vu les deux problèmes en faire des articles publiés.

Fomite
la source
Alors, il serait également approprié de séparer un fichier de données en 6 cas distincts et d'effectuer des comparaisons individuelles au sein de chaque ensemble de données avec des prédicteurs codés par contraste?
dessus du
Honnêtement, je ne sais pas trop ce que vous demandez pour ce deuxième morceau. Pouvez-vous clarifier ce que vous espérez accomplir?
Fomite
J'ai un ensemble de données avec 3 entre et 4 dans les conditions du sujet. Je voudrais tester chaque effet, mais une seule régression avec toutes les interactions manque beaucoup d'informations qui m'intéressent. Au lieu de cela, je diviserais les données par condition en ensembles de données distincts et exécuterais des régressions logistiques ciblées sur chaque ensemble de données avec contraste codes codant pour les différences qui m'intéressent.
upabove
pour encore plus d'informations sur la façon dont je code les codes de contraste, voir ici: stats.stackexchange.com/questions/14546/…
upabove
11

Pour plus de clarté: le terme "binaire" est généralement réservé au codage 1 vs 0 uniquement. Un mot plus général adapté à tout codage à 2 valeurs est "dichotomique". Les prédicteurs dichotomiques sont bien sûr les bienvenus dans la régression logistique, comme dans la régression linéaire, et, comme ils n'ont que 2 valeurs, cela ne fait aucune différence de les saisir comme facteurs ou comme covariables.

ttnphns
la source
5

En règle générale, cela aide à l'interprétation si vous codez vos prédicteurs 0-1, mais à part cela (et en notant que ce n'est pas obligatoire), il n'y a rien de mal à cela. Il existe d'autres approches (basées sur des tables de contingence), mais si je me souviens bien, elles s'avèrent être équivalentes à (une certaine forme de) régression logistique.

Bref: je ne vois aucune raison de ne pas le faire.

Nick Sabbe
la source
Merci! Et si j'ai 3 prédicteurs codés par contraste et que je les code tous 0-1, ils ne seront pas orthogonaux. Par exemple, j'ai 4 catégories et mes trois codes sont L1: 1, -1,0,0 L2: 0,1, -1,0, L3: 0,0,1, -1. est-ce un problème?
dessus du
Votre exemple de matrice L (L1, L2, L3) est les contrastes répétés par lesquels chaque catégorie est comparée à la catégorie suivante. Ni ces prédicteurs de contraste ne sont orthogonaux ni binaires (codés 0-1). En fait, leurs valeurs sont de 0,75 vs -,25 (1ère variable), 0,5 vs -,5 (2e variable), 0,25 vs -,75 (3e variable)
ttnphns
3

De plus, si vous avez plus de deux prédicteurs, il est plus probable qu'il y aurait un problème de multi-colinéarité même pour une régression logistique ou multiple. Cependant, il n'y a aucun mal à utiliser la régression logistique avec toutes les variables binaires (c'est-à-dire codées (0,1)).

love-stats
la source