Lorsque j'analyse mes variables dans deux modèles de régression logistique distincts (univariés), j'obtiens ce qui suit:
Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003
Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046
Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001
Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029
mais quand je les saisis dans un seul modèle de régression logistique multiple, j'obtiens:
Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171
Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, 7.02), p=.012
Constant: B=-0.574, SE=.227, Exp(B)=0.56, p=.012
Les deux prédicteurs sont dichotomiques (catégoriques). J'ai vérifié la multicolinéarité.
Je ne sais pas si j'ai donné suffisamment d'informations, mais je ne comprends pas pourquoi le prédicteur 1 est passé de significatif à non significatif et pourquoi les rapports de cotes sont si différents dans le modèle de régression multiple. Quelqu'un peut-il fournir une explication de base de ce qui se passe?
Réponses:
Il existe plusieurs raisons (dont aucune n'est spécifiquement liée à la régression logistique, mais peut survenir dans n'importe quelle régression).
Corrélation des régresseurs: vos régresseurs peuvent être liés les uns aux autres, mesurant effectivement quelque chose de similaire. Disons que votre modèle logit consiste à expliquer le statut sur le marché du travail (actif / non actif) en fonction de l'expérience et de l'âge. Individuellement, les deux variables sont positivement liées au statut, car les employés plus expérimentés / plus âgés (excluant les très vieux employés pour le bien de l'argument) trouvent plus facile de trouver un emploi que les diplômés récents. Maintenant, évidemment, les deux variables sont fortement liées, car vous devez être plus âgé pour avoir plus d'expérience. Par conséquent, les deux variables se «concurrencent» essentiellement pour expliquer le statut, ce qui peut, en particulier dans les petits échantillons, entraîner la «perte» des deux variables, car aucun des effets ne peut être suffisamment fort et suffisamment précisément estimé lors du contrôle de l'autre pour obtenir estimations importantes. Essentiellement, vous vous demandez: quel est l'effet positif d'une autre année d'expérience lorsque vous maintenez l'âge constant? Il peut y avoir très peu ou pas d'employés dans votre ensemble de données pour répondre à cette question, donc l'effet sera estimé de manière imprécise, conduisant à de grandes valeurs de p.
Modèles mal spécifiés: la théorie sous-jacente des statistiques t / valeurs p requiert que vous estimiez un modèle correctement spécifié. Maintenant, si vous ne régressez que sur un seul prédicteur, il est fort probable que ce modèle univarié souffre d'un biais variable omis. Par conséquent, tous les paris sont désactivés sur le comportement des valeurs p. Fondamentalement, vous devez faire attention à leur faire confiance lorsque votre modèle n'est pas correct.
la source
Il n'y a aucune raison particulière pour que cela ne se produise pas . La régression multiple pose une question différente de la régression simple. En particulier, la régression multiple (dans ce cas, la régression logistique multiple) pose des questions sur la relation entre les variables dépendantes et les variables indépendantes, en contrôlant les autres variables indépendantes. Une régression simple pose des questions sur la relation entre une variable dépendante et une variable (unique) indépendante.
Si vous ajoutez le contexte de votre étude (par exemple, quelles sont ces variables?), Il peut être possible de donner des réponses plus spécifiques. De plus, étant donné que les trois variables dans votre cas sont des dichotomies, vous pouvez nous présenter les données assez facilement ... il n'y a que 8 lignes nécessaires pour résumer cela:
etc.
la source