Je dois faire une régression logistique binaire avec beaucoup de variables indépendantes. La plupart d'entre elles sont binaires, mais quelques-unes des variables catégorielles ont plus de deux niveaux.
Quelle est la meilleure façon de gérer ces variables?
Par exemple, pour une variable avec trois valeurs possibles, je suppose que deux variables fictives doivent être créées. Ensuite, dans une procédure de régression par étapes, il est préférable de tester les deux variables muettes en même temps, ou de les tester séparément?
Je vais utiliser SPSS, mais je ne m'en souviens pas très bien, alors: comment SPSS gère-t-il cette situation?
De plus, pour une variable catégorielle ordinale, est-ce une bonne chose d'utiliser des variables fictives qui recréent l'échelle ordinale? (Par exemple, en utilisant trois variables nominales pour une variable ordinale à 4 états, mis 0-0-0
à niveau , de niveau , pour le niveau et de niveau , au lieu de , , et pour les 4 niveaux).2 3 41-0-0
1-1-0
1-1-1
0-0-0
1-0-0
0-1-0
0-0-1
Réponses:
Le site Web de l'UCLA propose de nombreux didacticiels pour chaque procédure, ventilés par type de logiciel que vous connaissez. Consultez la sortie SPSS annotée: régression logistique - la variable SES qu'ils mentionnent est catégorique (et non binaire). SPSS créera automatiquement les variables d'indicateur pour vous. Il existe également une page dédiée aux prédicteurs catégoriels en régression avec SPSS qui contient des informations spécifiques sur la façon de modifier les codages par défaut et une page spécifique à la régression logistique .
la source
La régression logistique est une méthode assez flexible. Il peut facilement utiliser comme variables indépendantes des variables catégorielles. La plupart des logiciels qui utilisent la régression logistique devraient vous permettre d'utiliser des variables catégorielles.
À titre d'exemple, disons qu'une de vos variables catégorielles est la température définie en trois catégories: froid / doux / chaud. Comme vous le suggérez, vous pouvez interpréter cela comme trois variables muettes distinctes, chacune ayant une valeur de 1 ou 0. Mais, le logiciel devrait vous permettre d'utiliser une seule variable catégorielle à la place avec une valeur de texte froid / doux / chaud. Et, la régression logit dériverait un coefficient (ou une constante) pour chacune des trois conditions de température. Si l'un n'est pas significatif, le logiciel ou l'utilisateur pourrait facilement le retirer (après avoir observé t stat et la valeur p).
Le principal avantage du regroupement des catégories de variables catégorielles en une seule variable catégorielle est l'efficacité du modèle. Une seule colonne de votre modèle peut gérer autant de catégories que nécessaire pour une seule variable catégorielle. Si, à la place, vous utilisez une variable fictive pour chaque catégorie d'une variable catégorielle, votre modèle peut rapidement évoluer pour avoir de nombreuses colonnes superflues compte tenu de l'alternative mentionnée.
la source
Pour autant que je sache, il est bon d'utiliser une variable fictive pour les données catégorielles / nominales tandis que pour les données ordinales, nous pouvons utiliser le codage 1,2,3 pour différents niveaux. Pour la variable fictive, nous coderons 1 s'il est vrai pour une observation particulière et 0 sinon. Les variables fictives seront également 1 de moins que le non. Des niveaux, par exemple en binaire, nous avons 1. Une observation tout '0' dans la variable factice fera automatiquement 1 pour le factice non codé.
la source