Puis-je utiliser la régression multiple lorsque j'ai des prédicteurs catégoriels et continus mixtes?

12

Il semble que vous puissiez utiliser le codage pour une variable catégorielle, mais j'ai deux variables prédictives catégoriques et une variable prédictive continue. Puis-je utiliser la régression multiple pour cela dans SPSS et si oui, comment? Merci!


la source
Je suis sûr que vous le pouvez , mais je crains de ne pas savoir comment !
2011
Je suggère de taper quelque chose comme la régression dans la documentation d'aide fournie avec SPSS. Devrait être du pain et du beurre pour tous les packages de statistiques
Probabilogic
Je ne sais pas ce que vous voulez dire en codant pour une variable catégorielle. Pouvez-vous donner un exemple de syntaxe? Votre variable dépendante est-elle continue ou catégorique?
Andy W

Réponses:

8
  1. S'il s'agit d'une question de syntaxe SPSS, la réponse est simplement de mettre la variable catégorielle, codée de manière appropriée, dans la liste des variables pour les "variables indépendantes" avec la variable continue.
  2. Sur les statistiques: votre variable catégorielle est-elle binaire? Si c'est le cas, vous devez utiliser un code factice ou un autre code de contraste valide. S'il n'est pas binaire, votre variable catégorielle est-elle ordinale ou nominale? Si elle est nominale, vous devez utiliser une stratégie de code contrastée - en effet, modéliser l'impact de chaque niveau de la variable sur le résultat ou la variable "dépendante". Si la variable catégorielle est ordinale, alors très probablementla chose raisonnable à faire est de l'introduire telle quelle dans le modèle, comme vous le feriez avec une variable prédictive continue (c'est-à-dire "indépendante"). Vous supposeriez, dans ce cas, que les incréments entre les niveaux de la variable du prédicteur catégorique ("indépendant"); ce ne sera que rarement une erreur, mais quand c'est le cas, vous devez à nouveau utiliser un code de contraste et modéliser l'impact de chaque niveau. Cette question revient assez souvent sur ce forum - voici une bonne analyse
  3. À mon avis, la façon de gérer les données manquantes est une question complètement distincte. Je crois comprendre que la suppression par paire n'est pas considérée comme une approche valide pour la régression multivariée. Listwise est assez courant, mais peut également biaiser les résultats et c'est certainement dommage. L'imputation multiple est une chose de beauté.
dmk38
la source
J'ai une question pour DMK38. Ci-dessus, vous écrivez qu'il est correct d'ajouter une variable catégorielle dans un modèle tel quel lorsqu'il est ordinal. Je suis heureux de lire ceci ;-) Avez-vous une bonne source qui le mentionne aussi pour que je puisse l'ajouter à mon article? Merci beaucoup pour votre réponse! Lilian
Lilian Jans-Beken
1
@ LilianJans-Beken: Voir Variable dépendante continue avec variable indépendante ordinale et régression logistique et variables indépendantes ordinales . Vous ne voudrez peut-être pas opter pour les méthodes les plus compliquées, mais notez que même si vous êtes heureux de considérer le prédicteur comme échelonné, il n'est pas nécessaire de le contraindre à avoir une relation linéaire avec la réponse. Et ne vous sentez pas obligé d'assumer des intervalles égaux entre les niveaux contigus si quelque chose d'autre semble plus sensé.
Scortchi - Réintégrer Monica
1
@ LilianJans-Beken: Aussi Comment gérer la variable catégorielle ordinale en tant que variable indépendante et Logit avec des variables indépendantes ordinales . Oh, et bienvenue sur Cross Validated!
Scortchi - Réintégrer Monica
2

Vous pouvez certainement, en suivant la même méthode que vous utiliseriez pour le premier prédicteur catégorique. Créez des variables factices comme vous le feriez pour la première variable de ce type. Mais il est souvent plus facile d'utiliser la commande Unianova de SPSS. Vous pouvez le rechercher dans n'importe quel guide de syntaxe imprimé ou PDF, ou vous pouvez y accéder via Analyser ... Modèle linéaire général ... Univarié.

Bien qu'elle soit un peu plus compliquée, la commande de régression présente cependant un certain nombre d'avantages par rapport à Unianova. Le principal est que vous pouvez choisir «manquant par paire» (vous n'avez pas à perdre un cas simplement parce qu'il manque une valeur pour un ou deux prédicteurs). Vous pouvez également obtenir de nombreux diagnostics précieux tels que des graphiques partiels et des statistiques d'influence.

rolando2
la source
1
@ rolando - bonne réponse. Cela dit, les approches par paires manquantes tendent à confondre la comparaison des effets, car elles sont basées sur différents nombres d'observations. Peut-être quelque chose à garder à l'esprit.
richiemorrisroe
Je pense que votre absence légèrement confuse et par paire n'a d'importance que si vous utilisez des modèles entièrement séparés (comme l'utilisation d'une procédure de sélection de modèle par étapes). Si vous saisissez toutes les variables dans le modèle, les valeurs manquantes sont toujours supprimées par liste.
Andy W
@ richiemorrisroe - je suis d'accord, cela vaut la peine de garder à l'esprit. @ Andy W - Je viens de confirmer dans SPSS que, en utilisant uniquement la saisie forcée, les paires manquantes et les listes manquantes donnent des résultats différents à tous égards, y compris des df différents.
rolando2
Je pense toujours que vous êtes confus, comment SPSS peut-il retourner différents ensembles de résultats en déclarant les paires manquantes à moins qu'il ne crée des valeurs pour les données manquantes? Voici un exemple utilisant des données simulées que j'ai publiées dans un fichier texte, dl.dropbox.com/u/3385251/SPSS_missing_Listwise_vs_Pairwise.txt . J'ai actuellement dévalorisé votre réponse, car tous ces discours sur la façon dont la commande de régression gère les données manquantes prêtent à confusion, n'ont rien à voir avec la question d'origine de l'OP et sont susceptibles d'induire en erreur.
Andy W
1

Un moyen simple de transformer des variables catégorielles en un ensemble de variables factices à utiliser dans les modèles dans SPSS consiste à utiliser la syntaxe do repeat. C'est le plus simple à utiliser si vos variables catégorielles sont dans l'ordre numérique.

*making vector of dummy variables.
vector dummy(3,F1.0).
*looping through dummy variables using do repeat, in this example category would be the categorical variable to recode. 
do repeat dummy = dummy1 to dummy3 /#i = 1 to 3.
compute dummy = 0.
if category = #i dummy = 1.
end repeat.
execute. 

Sinon, vous pouvez simplement exécuter un ensemble d'instructions if pour créer vos variables factices. Ma version actuelle (16) n'a pas la capacité native de spécifier automatiquement un ensemble de variables factices dans la commande de régression (comme vous pouvez le faire dans Stata en utilisant la commande xi ) mais je ne serais pas surpris si cela était disponible dans une version plus récente. Prenez également note du point n ° 2 de dmk38, ce schéma de codage suppose des catégories nominales. Si votre variable est ordinale, une plus grande discrétion peut être utilisée.

Je suis également d'accord avec dmk38 et le fait que la régression soit meilleure en raison de sa capacité à spécifier les données manquantes d'une manière particulière est un problème complètement distinct.

Andy W
la source